content-core
外部ソースからテキストコンテンツを抽出できます。対応するソースはURL、PDF、ドキュメント、YouTubeビデオ、音声・動画ファイルなどです。URL、ファイル、メディアソースから内容を読み込んだり、分析したり、要約したりする必要がある場合に使用します。
description の原文を見る
Extract text content from external sources — URLs, PDFs, documents, YouTube videos, and audio/video files. Use when you need to read, analyze, or summarize content from a URL, file, or media source.
SKILL.md 本文
目的
Content Core は、外部ソースからテキストを抽出します。URL、PDF、ドキュメント、YouTube ビデオ、または音声/ビデオファイルから コンテンツを読み取り、分析、要約できます。
ほとんどの抽出には API キーは必要ありません。音声/ビデオ文字起こしと要約のみ LLM API キー(例: OPENAI_API_KEY)が必要です。
前提条件
Content Core は uvx(ゼロインストール)を経由して実行されます。これには uv が利用可能である必要があります。
uv がインストールされているか確認する
uv --version
uv が見つからない場合は、ユーザーがインストールするのをサポートしてください:
- macOS/Linux:
curl -LsSf https://astral.sh/uv/install.sh | sh - Windows:
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" - Homebrew:
brew install uv - pip:
pip install uv
インストール後、ユーザーはシェルを再起動するか、source ~/.bashrc / source ~/.zshrc を実行して、PATH で uv が利用可能になる必要があります。
機能
| ソース | 例 | API キー必要 |
|---|---|---|
| Web ページ | 任意の URL | いいえ |
| YouTube | ビデオ文字起こし | いいえ |
| ドキュメント | PDF、DOCX、PPTX、XLSX、EPUB、Markdown | いいえ |
| 音声 | MP3、WAV、M4A、FLAC、OGG | はい (STT) |
| ビデオ | MP4、AVI、MOV、MKV | はい (STT) |
| プレーンテキスト / HTML | 生テキスト、HTML 自動検出 | いいえ |
CLI 使用方法
すべてのコマンドは uvx content-core を使用します。インストールなしで実行できます。
コンテンツを抽出する
# URL から抽出
uvx content-core extract "https://example.com"
# ファイルから抽出
uvx content-core extract document.pdf
# YouTube ビデオから抽出
uvx content-core extract "https://www.youtube.com/watch?v=VIDEO_ID"
# JSON 形式で出力(タイトル、コンテンツ、メタデータを含む)
uvx content-core extract --format json "https://example.com"
# 特定の抽出エンジンを使用
uvx content-core extract --engine firecrawl "https://example.com"
uvx content-core extract --engine docling document.pdf
Docling エンリッチメント フラグ(高度なドキュメント処理用)
# 数式抽出を有効化(LaTeX)
uvx content-core extract --engine docling --formulas paper.pdf
# 画像説明とチャートデータ抽出を有効化
uvx content-core extract --engine docling --pictures paper.pdf
# OCR を無効化(埋め込みテキスト付き PDF の場合は高速)
uvx content-core extract --engine docling --no-ocr paper.pdf
コンテンツを要約する
LLM API キー(OPENAI_API_KEY または別のプロバイダー)が必要です。
# テキストを要約
uvx content-core summarize "Long text here..."
# 要約をガイドするコンテキスト付き
uvx content-core summarize --context "bullet points" "Long text..."
# 抽出を要約にパイプ
uvx content-core extract "https://example.com" | uvx content-core summarize --context "key takeaways"
設定
# 現在の設定を表示
uvx content-core config list
# 永続的なデフォルトを設定
uvx content-core config set llm_provider anthropic
uvx content-core config set llm_model claude-sonnet-4-20250514
uvx content-core config set url_engine firecrawl
# 設定値を削除
uvx content-core config delete llm_provider
# すべての利用可能な設定キーを表示
uvx content-core config --help
MCP 使用方法
Content Core は MCP サーバーとしても実行できます。現在の環境では利用できない場合もあります。
可用性の確認
利用可能な MCP サーバーのリストで content-core を探してください。利用可能な場合、以下のツールにアクセスできます:
extract_content
URL またはファイルからテキストを抽出します。ほとんどのソースでは API キーは不要です。
extract_content(url="https://example.com")
extract_content(file_path="/path/to/document.pdf")
extract_content(url="https://youtube.com/watch?v=ID")
# エンジン上書き付き
extract_content(file_path="paper.pdf", engine="docling")
# Docling エンリッチメント付き
extract_content(file_path="paper.pdf", engine="docling", formulas=true, pictures=true)
summarize_content
LLM を使用してテキストを要約します。API キーが必要です。
summarize_content(content="Long text...", context="bullet points")
要約が API キーエラーで失敗した場合は、extract_content にフォールバックして、代わりに生コンテンツを返してください。
ガイドライン
- 小中規模のコンテンツ(記事、短いページ)の場合: MCP ツールが利用可能な場合は優先(非同期でより効率的)
- 大規模なコンテンツ(長いドキュメント、完全な書籍、長い文字起こし)の場合: Bash 経由で CLI を優先し、出力をファイルにリダイレクト(
uvx content-core extract "URL" > output.md)。エージェントのコンテキストウィンドウに大きなペイロードが満杯になるのを避けます。必要に応じてファイルから関連セクションのみを読み取ります - MCP が利用できない場合、常に
uvx content-coreを使用して Bash 経由で CLI を使用してください - URL の場合: API キーなしで抽出が機能します
- 音声/ビデオの場合:
OPENAI_API_KEY(または別の STT プロバイダー キー)が必要です - 要約の場合: LLM API キーが必要です
- 要約が利用できない場合、生コンテンツを抽出して自分で要約してください
- 構造化メタデータが必要な場合は
--format jsonを使用してください(タイトル、ソースタイプ、特定のタイプ) - 数式またはチャートを含む大規模なドキュメントの場合、
--engine doclingを--formulasまたは--picturesと共に使用してください
エラーハンドリング
uvxが見つからない場合: ユーザーがuvをインストールするのをサポートしてください(上記の前提条件を参照)- 抽出が空のコンテンツを返す場合: ソースはペイウォールの背後にあるか、認証が必要である可能性があります
- MCP ツールが利用できない場合:
uvx content-core経由で CLI にフォールバックしてください - 要約が API キーエラーで失敗する場合: 代わりに
extract_contentを使用して、コンテンツを自分で要約してください - 特定のエンジンが失敗した場合:
--engineなしで試して、自動検出フォールバック チェーンを使用してください
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- lfnovo
- リポジトリ
- lfnovo/content-core
- ライセンス
- MIT
- 最終更新
- 2026/4/14
Source: https://github.com/lfnovo/content-core / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。