Agent Skills by ALSEL
汎用音声・動画・メディア⭐ リポ 149品質スコア 86/100

content-core

外部ソースからテキストコンテンツを抽出できます。対応するソースはURL、PDF、ドキュメント、YouTubeビデオ、音声・動画ファイルなどです。URL、ファイル、メディアソースから内容を読み込んだり、分析したり、要約したりする必要がある場合に使用します。

description の原文を見る

Extract text content from external sources — URLs, PDFs, documents, YouTube videos, and audio/video files. Use when you need to read, analyze, or summarize content from a URL, file, or media source.

SKILL.md 本文

目的

Content Core は、外部ソースからテキストを抽出します。URL、PDF、ドキュメント、YouTube ビデオ、または音声/ビデオファイルから コンテンツを読み取り、分析、要約できます。

ほとんどの抽出には API キーは必要ありません。音声/ビデオ文字起こしと要約のみ LLM API キー(例: OPENAI_API_KEY)が必要です。

前提条件

Content Core は uvx(ゼロインストール)を経由して実行されます。これには uv が利用可能である必要があります。

uv がインストールされているか確認する

uv --version

uv が見つからない場合は、ユーザーがインストールするのをサポートしてください:

  • macOS/Linux: curl -LsSf https://astral.sh/uv/install.sh | sh
  • Windows: powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
  • Homebrew: brew install uv
  • pip: pip install uv

インストール後、ユーザーはシェルを再起動するか、source ~/.bashrc / source ~/.zshrc を実行して、PATH で uv が利用可能になる必要があります。

機能

ソースAPI キー必要
Web ページ任意の URLいいえ
YouTubeビデオ文字起こしいいえ
ドキュメントPDF、DOCX、PPTX、XLSX、EPUB、Markdownいいえ
音声MP3、WAV、M4A、FLAC、OGGはい (STT)
ビデオMP4、AVI、MOV、MKVはい (STT)
プレーンテキスト / HTML生テキスト、HTML 自動検出いいえ

CLI 使用方法

すべてのコマンドは uvx content-core を使用します。インストールなしで実行できます。

コンテンツを抽出する

# URL から抽出
uvx content-core extract "https://example.com"

# ファイルから抽出
uvx content-core extract document.pdf

# YouTube ビデオから抽出
uvx content-core extract "https://www.youtube.com/watch?v=VIDEO_ID"

# JSON 形式で出力(タイトル、コンテンツ、メタデータを含む)
uvx content-core extract --format json "https://example.com"

# 特定の抽出エンジンを使用
uvx content-core extract --engine firecrawl "https://example.com"
uvx content-core extract --engine docling document.pdf

Docling エンリッチメント フラグ(高度なドキュメント処理用)

# 数式抽出を有効化(LaTeX)
uvx content-core extract --engine docling --formulas paper.pdf

# 画像説明とチャートデータ抽出を有効化
uvx content-core extract --engine docling --pictures paper.pdf

# OCR を無効化(埋め込みテキスト付き PDF の場合は高速)
uvx content-core extract --engine docling --no-ocr paper.pdf

コンテンツを要約する

LLM API キー(OPENAI_API_KEY または別のプロバイダー)が必要です。

# テキストを要約
uvx content-core summarize "Long text here..."

# 要約をガイドするコンテキスト付き
uvx content-core summarize --context "bullet points" "Long text..."

# 抽出を要約にパイプ
uvx content-core extract "https://example.com" | uvx content-core summarize --context "key takeaways"

設定

# 現在の設定を表示
uvx content-core config list

# 永続的なデフォルトを設定
uvx content-core config set llm_provider anthropic
uvx content-core config set llm_model claude-sonnet-4-20250514
uvx content-core config set url_engine firecrawl

# 設定値を削除
uvx content-core config delete llm_provider

# すべての利用可能な設定キーを表示
uvx content-core config --help

MCP 使用方法

Content Core は MCP サーバーとしても実行できます。現在の環境では利用できない場合もあります。

可用性の確認

利用可能な MCP サーバーのリストで content-core を探してください。利用可能な場合、以下のツールにアクセスできます:

extract_content

URL またはファイルからテキストを抽出します。ほとんどのソースでは API キーは不要です。

extract_content(url="https://example.com")
extract_content(file_path="/path/to/document.pdf")
extract_content(url="https://youtube.com/watch?v=ID")

# エンジン上書き付き
extract_content(file_path="paper.pdf", engine="docling")

# Docling エンリッチメント付き
extract_content(file_path="paper.pdf", engine="docling", formulas=true, pictures=true)

summarize_content

LLM を使用してテキストを要約します。API キーが必要です。

summarize_content(content="Long text...", context="bullet points")

要約が API キーエラーで失敗した場合は、extract_content にフォールバックして、代わりに生コンテンツを返してください。

ガイドライン

  • 小中規模のコンテンツ(記事、短いページ)の場合: MCP ツールが利用可能な場合は優先(非同期でより効率的)
  • 大規模なコンテンツ(長いドキュメント、完全な書籍、長い文字起こし)の場合: Bash 経由で CLI を優先し、出力をファイルにリダイレクト(uvx content-core extract "URL" > output.md)。エージェントのコンテキストウィンドウに大きなペイロードが満杯になるのを避けます。必要に応じてファイルから関連セクションのみを読み取ります
  • MCP が利用できない場合、常に uvx content-core を使用して Bash 経由で CLI を使用してください
  • URL の場合: API キーなしで抽出が機能します
  • 音声/ビデオの場合: OPENAI_API_KEY(または別の STT プロバイダー キー)が必要です
  • 要約の場合: LLM API キーが必要です
  • 要約が利用できない場合、生コンテンツを抽出して自分で要約してください
  • 構造化メタデータが必要な場合は --format json を使用してください(タイトル、ソースタイプ、特定のタイプ)
  • 数式またはチャートを含む大規模なドキュメントの場合、--engine docling--formulas または --pictures と共に使用してください

エラーハンドリング

  • uvx が見つからない場合: ユーザーが uv をインストールするのをサポートしてください(上記の前提条件を参照)
  • 抽出が空のコンテンツを返す場合: ソースはペイウォールの背後にあるか、認証が必要である可能性があります
  • MCP ツールが利用できない場合: uvx content-core 経由で CLI にフォールバックしてください
  • 要約が API キーエラーで失敗する場合: 代わりに extract_content を使用して、コンテンツを自分で要約してください
  • 特定のエンジンが失敗した場合: --engine なしで試して、自動検出フォールバック チェーンを使用してください

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
lfnovo
リポジトリ
lfnovo/content-core
ライセンス
MIT
最終更新
2026/4/14

Source: https://github.com/lfnovo/content-core / ライセンス: MIT

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: lfnovo · lfnovo/content-core · ライセンス: MIT