content-core
外部ソースからテキストコンテンツを抽出できます。対応するソースはURL、PDF、ドキュメント、YouTubeビデオ、音声・動画ファイルなどです。URL、ファイル、メディアソースから内容を読み込んだり、分析したり、要約したりする必要がある場合に使用します。
description の原文を見る
Extract text content from external sources — URLs, PDFs, documents, YouTube videos, and audio/video files. Use when you need to read, analyze, or summarize content from a URL, file, or media source.
SKILL.md 本文
目的
Content Core は、外部ソースからテキストを抽出します。URL、PDF、ドキュメント、YouTube ビデオ、または音声/ビデオファイルから コンテンツを読み取り、分析、要約できます。
ほとんどの抽出には API キーは必要ありません。音声/ビデオ文字起こしと要約のみ LLM API キー(例: OPENAI_API_KEY)が必要です。
前提条件
Content Core は uvx(ゼロインストール)を経由して実行されます。これには uv が利用可能である必要があります。
uv がインストールされているか確認する
uv --version
uv が見つからない場合は、ユーザーがインストールするのをサポートしてください:
- macOS/Linux:
curl -LsSf https://astral.sh/uv/install.sh | sh - Windows:
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" - Homebrew:
brew install uv - pip:
pip install uv
インストール後、ユーザーはシェルを再起動するか、source ~/.bashrc / source ~/.zshrc を実行して、PATH で uv が利用可能になる必要があります。
機能
| ソース | 例 | API キー必要 |
|---|---|---|
| Web ページ | 任意の URL | いいえ |
| YouTube | ビデオ文字起こし | いいえ |
| ドキュメント | PDF、DOCX、PPTX、XLSX、EPUB、Markdown | いいえ |
| 音声 | MP3、WAV、M4A、FLAC、OGG | はい (STT) |
| ビデオ | MP4、AVI、MOV、MKV | はい (STT) |
| プレーンテキスト / HTML | 生テキスト、HTML 自動検出 | いいえ |
CLI 使用方法
すべてのコマンドは uvx content-core を使用します。インストールなしで実行できます。
コンテンツを抽出する
# URL から抽出
uvx content-core extract "https://example.com"
# ファイルから抽出
uvx content-core extract document.pdf
# YouTube ビデオから抽出
uvx content-core extract "https://www.youtube.com/watch?v=VIDEO_ID"
# JSON 形式で出力(タイトル、コンテンツ、メタデータを含む)
uvx content-core extract --format json "https://example.com"
# 特定の抽出エンジンを使用
uvx content-core extract --engine firecrawl "https://example.com"
uvx content-core extract --engine docling document.pdf
Docling エンリッチメント フラグ(高度なドキュメント処理用)
# 数式抽出を有効化(LaTeX)
uvx content-core extract --engine docling --formulas paper.pdf
# 画像説明とチャートデータ抽出を有効化
uvx content-core extract --engine docling --pictures paper.pdf
# OCR を無効化(埋め込みテキスト付き PDF の場合は高速)
uvx content-core extract --engine docling --no-ocr paper.pdf
コンテンツを要約する
LLM API キー(OPENAI_API_KEY または別のプロバイダー)が必要です。
# テキストを要約
uvx content-core summarize "Long text here..."
# 要約をガイドするコンテキスト付き
uvx content-core summarize --context "bullet points" "Long text..."
# 抽出を要約にパイプ
uvx content-core extract "https://example.com" | uvx content-core summarize --context "key takeaways"
設定
# 現在の設定を表示
uvx content-core config list
# 永続的なデフォルトを設定
uvx content-core config set llm_provider anthropic
uvx content-core config set llm_model claude-sonnet-4-20250514
uvx content-core config set url_engine firecrawl
# 設定値を削除
uvx content-core config delete llm_provider
# すべての利用可能な設定キーを表示
uvx content-core config --help
MCP 使用方法
Content Core は MCP サーバーとしても実行できます。現在の環境では利用できない場合もあります。
可用性の確認
利用可能な MCP サーバーのリストで content-core を探してください。利用可能な場合、以下のツールにアクセスできます:
extract_content
URL またはファイルからテキストを抽出します。ほとんどのソースでは API キーは不要です。
extract_content(url="https://example.com")
extract_content(file_path="/path/to/document.pdf")
extract_content(url="https://youtube.com/watch?v=ID")
# エンジン上書き付き
extract_content(file_path="paper.pdf", engine="docling")
# Docling エンリッチメント付き
extract_content(file_path="paper.pdf", engine="docling", formulas=true, pictures=true)
summarize_content
LLM を使用してテキストを要約します。API キーが必要です。
summarize_content(content="Long text...", context="bullet points")
要約が API キーエラーで失敗した場合は、extract_content にフォールバックして、代わりに生コンテンツを返してください。
ガイドライン
- 小中規模のコンテンツ(記事、短いページ)の場合: MCP ツールが利用可能な場合は優先(非同期でより効率的)
- 大規模なコンテンツ(長いドキュメント、完全な書籍、長い文字起こし)の場合: Bash 経由で CLI を優先し、出力をファイルにリダイレクト(
uvx content-core extract "URL" > output.md)。エージェントのコンテキストウィンドウに大きなペイロードが満杯になるのを避けます。必要に応じてファイルから関連セクションのみを読み取ります - MCP が利用できない場合、常に
uvx content-coreを使用して Bash 経由で CLI を使用してください - URL の場合: API キーなしで抽出が機能します
- 音声/ビデオの場合:
OPENAI_API_KEY(または別の STT プロバイダー キー)が必要です - 要約の場合: LLM API キーが必要です
- 要約が利用できない場合、生コンテンツを抽出して自分で要約してください
- 構造化メタデータが必要な場合は
--format jsonを使用してください(タイトル、ソースタイプ、特定のタイプ) - 数式またはチャートを含む大規模なドキュメントの場合、
--engine doclingを--formulasまたは--picturesと共に使用してください
エラーハンドリング
uvxが見つからない場合: ユーザーがuvをインストールするのをサポートしてください(上記の前提条件を参照)- 抽出が空のコンテンツを返す場合: ソースはペイウォールの背後にあるか、認証が必要である可能性があります
- MCP ツールが利用できない場合:
uvx content-core経由で CLI にフォールバックしてください - 要約が API キーエラーで失敗する場合: 代わりに
extract_contentを使用して、コンテンツを自分で要約してください - 特定のエンジンが失敗した場合:
--engineなしで試して、自動検出フォールバック チェーンを使用してください
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- lfnovo
- リポジトリ
- lfnovo/content-core
- ライセンス
- MIT
- 最終更新
- 2026/4/14
Source: https://github.com/lfnovo/content-core / ライセンス: MIT