Anthropic Claude音声・動画・メディア⭐ リポ 0品質スコア 50/100

podcast-generation

Name: podcast-generation
Author: bytedance

テキストコンテンツからポッドキャストを生成・作成したいときに使用するスキルです。入力された文章を、2人のホストによる自然な会話形式のポッドキャスト音声に変換します。

description の原文を見る

Use this skill when the user requests to generate, create, or produce podcasts from text content. Converts written content into a two-host conversational podcast audio format with natural dialogue.

SKILL.md 本文

ポッドキャスト生成スキル

概要

このスキルはテキストコンテンツから高品質なポッドキャスト音声を生成します。ワークフローには、構造化JSON スクリプト (会話型ダイアログ) の作成と、テキスト音声合成による音声生成の実行が含まれます。

コア機能

あらゆるテキストコンテンツ (記事、レポート、ドキュメント) をポッドキャストスクリプトに変換
自然な2ホスト会話型ダイアログ (男性ホストと女性ホスト) を生成
テキスト音声合成を使用した音声合成
複数のオーディオチャンクを最終的なポッドキャストMP3ファイルにミックス
英語と中国語コンテンツの両方に対応

ワークフロー

ステップ1: 要件を理解する

ユーザーがポッドキャスト生成をリクエストした場合、以下を特定します:

ソースコンテンツ: ポッドキャストに変換するテキスト/記事/レポート
言語: 英語または中国語 (コンテンツに基づく)
出力位置: 生成されたポッドキャストを保存する場所
/mnt/user-data の下のフォルダを確認する必要はありません

ステップ2: 構造化スクリプトJSONを作成する

/mnt/user-data/workspace/ に構造化JSON スクリプトファイルを生成します。命名パターン: {descriptive-name}-script.json

JSON構造:

{
  "locale": "en",
  "lines": [
    {"speaker": "male", "paragraph": "ダイアログテキスト"},
    {"speaker": "female", "paragraph": "ダイアログテキスト"}
  ]
}

ステップ3: 生成を実行する

Pythonスクリプトを呼び出します:

python /mnt/skills/public/podcast-generation/scripts/generate.py \
  --script-file /mnt/user-data/workspace/script-file.json \
  --output-file /mnt/user-data/outputs/generated-podcast.mp3 \
  --transcript-file /mnt/user-data/outputs/generated-podcast-transcript.md

パラメータ:

--script-file: JSONスクリプトファイルへの絶対パス (必須)
--output-file: 出力MP3ファイルへの絶対パス (必須)
--transcript-file: 出力トランスクリプトMarkdownファイルへの絶対パス (オプション、推奨)

[!IMPORTANT]

スクリプトを完全な呼び出しで実行します。ワークフローを複数のステップに分割しないでください。

スクリプトはすべてのTTS APIコールと音声生成を内部で処理します。

Pythonファイルを読まないでください。パラメータを使用して呼び出すだけです。

ユーザーが読める文字起こしを生成するために、常に --transcript-file を含めてください。

スクリプトJSON形式

スクリプトJSONファイルは以下の構造に従う必要があります:

{
  "title": "The History of Artificial Intelligence",
  "locale": "en",
  "lines": [
    {"speaker": "male", "paragraph": "Hello Deer! Welcome back to another episode."},
    {"speaker": "female", "paragraph": "Hey everyone! Today we have an exciting topic to discuss."},
    {"speaker": "male", "paragraph": "That's right! We're going to talk about..."}
  ]
}

フィールド:

title: ポッドキャストエピソードのタイトル (オプション、文字起こしの見出しとして使用)
locale: 言語コード - 英語は "en"、中国語は "zh"
lines: ダイアログラインの配列
- speaker: "male" または "female"
- paragraph: このスピーカーのダイアログテキスト

スクリプト作成ガイドライン

スクリプトJSONを作成する際は、以下のガイドラインに従ってください:

フォーマット要件

2ホストのみ: 男性と女性が自然に交互に話す
対象ランタイム: 約10分間のダイアログ (約40～60行)
男性ホストが「Hello Deer」を含むグリーティングで始める

トーン&スタイル

自然で会話的なダイアログ - 2人の友人がチャットしているような感じ
カジュアルな表現と自然な遷移を使用
過度に形式的な言語や学術的なトーンを避ける
反応、追従質問、自然な発言を含める

コンテンツガイドライン

ホスト間の頻繁な相互交換
話すときに短くてわかりやすい文を保つ
プレーンテキストのみ - 出力にMarkdown形式はない
技術的な概念をアクセス可能な言語に翻訳
数学的公式、コード、複雑な表記法なし
オーディオのみのリスナーにとって魅力的でアクセス可能なコンテンツ
日付、作成者名、ドキュメント構造などのメタ情報は除外

ポッドキャスト生成の例

ユーザーリクエスト: 「人工知能の歴史についてのポッドキャストを生成してください」

ステップ1: スクリプトファイル /mnt/user-data/workspace/ai-history-script.json を作成:

{
  "title": "The History of Artificial Intelligence",
  "locale": "en",
  "lines": [
    {"speaker": "male", "paragraph": "Hello Deer! Welcome back to another fascinating episode. Today we're diving into something that's literally shaping our future - the history of artificial intelligence."},
    {"speaker": "female", "paragraph": "Oh, I love this topic! You know, AI feels so modern, but it actually has roots going back over seventy years."},
    {"speaker": "male", "paragraph": "Exactly! It all started back in the 1950s. The term artificial intelligence was actually coined by John McCarthy in 1956 at a famous conference at Dartmouth."},
    {"speaker": "female", "paragraph": "Wait, so they were already thinking about machines that could think back then? That's incredible!"},
    {"speaker": "male", "paragraph": "Right? The early pioneers were so optimistic. They thought we'd have human-level AI within a generation."},
    {"speaker": "female", "paragraph": "But things didn't quite work out that way, did they?"},
    {"speaker": "male", "paragraph": "No, not at all. The 1970s brought what's called the first AI winter..."}
  ]
}

ステップ2: 生成を実行:

python /mnt/skills/public/podcast-generation/scripts/generate.py \
  --script-file /mnt/user-data/workspace/ai-history-script.json \
  --output-file /mnt/user-data/outputs/ai-history-podcast.mp3 \
  --transcript-file /mnt/user-data/outputs/ai-history-transcript.md

これにより以下が生成されます:

ai-history-podcast.mp3: オーディオポッドキャストファイル
ai-history-transcript.md: ポッドキャストの読みやすいMarkdown文字起こし

特定テンプレート

ユーザーリクエストに一致する場合のみ、以下のテンプレートファイルを読んでください。

Tech Explainer - 技術ドキュメントとチュートリアルの変換用

出力形式

生成されたポッドキャストは「Hello Deer」フォーマットに従います:

2ホスト: 1人の男性、1人の女性
自然な会話型ダイアログ
「Hello Deer」グリーティングで開始
対象時間: 約10分
エンゲージングなフロー用に交互にスピーカー

出力処理

生成後:

ポッドキャストと文字起こしは /mnt/user-data/outputs/ に保存されます
present_files ツールを使用して、ポッドキャストMP3と文字起こしMDをユーザーと共有
生成結果の簡潔な説明を提供 (トピック、時間、ホスト)
調整が必要な場合は再生成を提案

要件

以下の環境変数を設定する必要があります:

VOLCENGINE_TTS_APPID: Volcengine TTS アプリケーションID
VOLCENGINE_TTS_ACCESS_TOKEN: Volcengine TTS アクセストークン
VOLCENGINE_TTS_CLUSTER: Volcengine TTS クラスタ (オプション、デフォルトは "volcano_tts")

注記

常に完全なパイプラインを1回の呼び出しで実行 - 個々のステップをテストしたりタイムアウトを心配する必要はありません
スクリプトJSONはコンテンツ言語 (en または zh) に一致する必要があります
技術的なコンテンツはスクリプト内でオーディオアクセシビリティのために簡素化する必要があります
複雑な表記法 (公式、コード) はスクリプト内でプレーンテキストに翻訳する必要があります
長いコンテンツは長いポッドキャストになる可能性があります

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: bytedance
リポジトリ: bytedance/deer-flow
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/bytedance/deer-flow / ライセンス: MIT