podcast-generation
テキストコンテンツからポッドキャストを生成・作成したいときに使用するスキルです。入力された文章を、2人のホストによる自然な会話形式のポッドキャスト音声に変換します。
description の原文を見る
Use this skill when the user requests to generate, create, or produce podcasts from text content. Converts written content into a two-host conversational podcast audio format with natural dialogue.
SKILL.md 本文
ポッドキャスト生成スキル
概要
このスキルはテキストコンテンツから高品質なポッドキャスト音声を生成します。ワークフローには、構造化JSON スクリプト (会話型ダイアログ) の作成と、テキスト音声合成による音声生成の実行が含まれます。
コア機能
- あらゆるテキストコンテンツ (記事、レポート、ドキュメント) をポッドキャストスクリプトに変換
- 自然な2ホスト会話型ダイアログ (男性ホストと女性ホスト) を生成
- テキスト音声合成を使用した音声合成
- 複数のオーディオチャンクを最終的なポッドキャストMP3ファイルにミックス
- 英語と中国語コンテンツの両方に対応
ワークフロー
ステップ1: 要件を理解する
ユーザーがポッドキャスト生成をリクエストした場合、以下を特定します:
- ソースコンテンツ: ポッドキャストに変換するテキスト/記事/レポート
- 言語: 英語または中国語 (コンテンツに基づく)
- 出力位置: 生成されたポッドキャストを保存する場所
/mnt/user-dataの下のフォルダを確認する必要はありません
ステップ2: 構造化スクリプトJSONを作成する
/mnt/user-data/workspace/ に構造化JSON スクリプトファイルを生成します。命名パターン: {descriptive-name}-script.json
JSON構造:
{
"locale": "en",
"lines": [
{"speaker": "male", "paragraph": "ダイアログテキスト"},
{"speaker": "female", "paragraph": "ダイアログテキスト"}
]
}
ステップ3: 生成を実行する
Pythonスクリプトを呼び出します:
python /mnt/skills/public/podcast-generation/scripts/generate.py \
--script-file /mnt/user-data/workspace/script-file.json \
--output-file /mnt/user-data/outputs/generated-podcast.mp3 \
--transcript-file /mnt/user-data/outputs/generated-podcast-transcript.md
パラメータ:
--script-file: JSONスクリプトファイルへの絶対パス (必須)--output-file: 出力MP3ファイルへの絶対パス (必須)--transcript-file: 出力トランスクリプトMarkdownファイルへの絶対パス (オプション、推奨)
[!IMPORTANT]
- スクリプトを完全な呼び出しで実行します。ワークフローを複数のステップに分割しないでください。
- スクリプトはすべてのTTS APIコールと音声生成を内部で処理します。
- Pythonファイルを読まないでください。パラメータを使用して呼び出すだけです。
- ユーザーが読める文字起こしを生成するために、常に
--transcript-fileを含めてください。
スクリプトJSON形式
スクリプトJSONファイルは以下の構造に従う必要があります:
{
"title": "The History of Artificial Intelligence",
"locale": "en",
"lines": [
{"speaker": "male", "paragraph": "Hello Deer! Welcome back to another episode."},
{"speaker": "female", "paragraph": "Hey everyone! Today we have an exciting topic to discuss."},
{"speaker": "male", "paragraph": "That's right! We're going to talk about..."}
]
}
フィールド:
title: ポッドキャストエピソードのタイトル (オプション、文字起こしの見出しとして使用)locale: 言語コード - 英語は "en"、中国語は "zh"lines: ダイアログラインの配列speaker: "male" または "female"paragraph: このスピーカーのダイアログテキスト
スクリプト作成ガイドライン
スクリプトJSONを作成する際は、以下のガイドラインに従ってください:
フォーマット要件
- 2ホストのみ: 男性と女性が自然に交互に話す
- 対象ランタイム: 約10分間のダイアログ (約40~60行)
- 男性ホストが「Hello Deer」を含むグリーティングで始める
トーン&スタイル
- 自然で会話的なダイアログ - 2人の友人がチャットしているような感じ
- カジュアルな表現と自然な遷移を使用
- 過度に形式的な言語や学術的なトーンを避ける
- 反応、追従質問、自然な発言を含める
コンテンツガイドライン
- ホスト間の頻繁な相互交換
- 話すときに短くてわかりやすい文を保つ
- プレーンテキストのみ - 出力にMarkdown形式はない
- 技術的な概念をアクセス可能な言語に翻訳
- 数学的公式、コード、複雑な表記法なし
- オーディオのみのリスナーにとって魅力的でアクセス可能なコンテンツ
- 日付、作成者名、ドキュメント構造などのメタ情報は除外
ポッドキャスト生成の例
ユーザーリクエスト: 「人工知能の歴史についてのポッドキャストを生成してください」
ステップ1: スクリプトファイル /mnt/user-data/workspace/ai-history-script.json を作成:
{
"title": "The History of Artificial Intelligence",
"locale": "en",
"lines": [
{"speaker": "male", "paragraph": "Hello Deer! Welcome back to another fascinating episode. Today we're diving into something that's literally shaping our future - the history of artificial intelligence."},
{"speaker": "female", "paragraph": "Oh, I love this topic! You know, AI feels so modern, but it actually has roots going back over seventy years."},
{"speaker": "male", "paragraph": "Exactly! It all started back in the 1950s. The term artificial intelligence was actually coined by John McCarthy in 1956 at a famous conference at Dartmouth."},
{"speaker": "female", "paragraph": "Wait, so they were already thinking about machines that could think back then? That's incredible!"},
{"speaker": "male", "paragraph": "Right? The early pioneers were so optimistic. They thought we'd have human-level AI within a generation."},
{"speaker": "female", "paragraph": "But things didn't quite work out that way, did they?"},
{"speaker": "male", "paragraph": "No, not at all. The 1970s brought what's called the first AI winter..."}
]
}
ステップ2: 生成を実行:
python /mnt/skills/public/podcast-generation/scripts/generate.py \
--script-file /mnt/user-data/workspace/ai-history-script.json \
--output-file /mnt/user-data/outputs/ai-history-podcast.mp3 \
--transcript-file /mnt/user-data/outputs/ai-history-transcript.md
これにより以下が生成されます:
ai-history-podcast.mp3: オーディオポッドキャストファイルai-history-transcript.md: ポッドキャストの読みやすいMarkdown文字起こし
特定テンプレート
ユーザーリクエストに一致する場合のみ、以下のテンプレートファイルを読んでください。
Tech Explainer- 技術ドキュメントとチュートリアルの変換用
出力形式
生成されたポッドキャストは「Hello Deer」フォーマットに従います:
- 2ホスト: 1人の男性、1人の女性
- 自然な会話型ダイアログ
- 「Hello Deer」グリーティングで開始
- 対象時間: 約10分
- エンゲージングなフロー用に交互にスピーカー
出力処理
生成後:
- ポッドキャストと文字起こしは
/mnt/user-data/outputs/に保存されます present_filesツールを使用して、ポッドキャストMP3と文字起こしMDをユーザーと共有- 生成結果の簡潔な説明を提供 (トピック、時間、ホスト)
- 調整が必要な場合は再生成を提案
要件
以下の環境変数を設定する必要があります:
VOLCENGINE_TTS_APPID: Volcengine TTS アプリケーションIDVOLCENGINE_TTS_ACCESS_TOKEN: Volcengine TTS アクセストークンVOLCENGINE_TTS_CLUSTER: Volcengine TTS クラスタ (オプション、デフォルトは "volcano_tts")
注記
- 常に完全なパイプラインを1回の呼び出しで実行 - 個々のステップをテストしたりタイムアウトを心配する必要はありません
- スクリプトJSONはコンテンツ言語 (en または zh) に一致する必要があります
- 技術的なコンテンツはスクリプト内でオーディオアクセシビリティのために簡素化する必要があります
- 複雑な表記法 (公式、コード) はスクリプト内でプレーンテキストに翻訳する必要があります
- 長いコンテンツは長いポッドキャストになる可能性があります
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- bytedance
- リポジトリ
- bytedance/deer-flow
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/bytedance/deer-flow / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。