video-generation
動画の生成・作成・イメージ化をリクエストされた際に使用するスキルです。構造化されたプロンプトや参照画像を用いたガイド付き生成にも対応しています。
description の原文を見る
Use this skill when the user requests to generate, create, or imagine videos. Supports structured prompts and reference image for guided generation.
SKILL.md 本文
ビデオ生成スキル
概要
このスキルは、構造化されたプロンプトと Python スクリプトを使用して高品質のビデオを生成します。ワークフローには、JSON 形式のプロンプト作成と、オプションの参照画像を使用したビデオ生成の実行が含まれます。
コア機能
- AIGC ビデオ生成用の構造化 JSON プロンプトを作成
- 参照画像をガイダンス、またはビデオの最初/最後のフレームとしてサポート
- 自動化された Python スクリプト実行によるビデオ生成
ワークフロー
ステップ 1: 要件を理解する
ユーザーがビデオ生成をリクエストするときは、以下を特定してください:
- 被写体/コンテンツ: 画像に何が含まれるべきか
- スタイル設定: アートスタイル、ムード、色合い
- 技術仕様: アスペクト比、構図、ライティング
- 参照画像: 生成をガイドするための画像
/mnt/user-data配下のフォルダを確認する必要はありません
ステップ 2: 構造化プロンプトを作成
/mnt/user-data/workspace/ に JSON ファイルを生成します。命名パターンは {descriptive-name}.json です。
ステップ 3: 参照画像を作成 (image-generation スキルが利用可能な場合のみオプション)
ビデオ生成用の参照画像を生成します。
- 1 つの画像のみが提供されている場合は、それをビデオのガイドフレームとして使用してください
ステップ 3: 生成を実行
Python スクリプトを呼び出します:
python /mnt/skills/public/video-generation/scripts/generate.py \
--prompt-file /mnt/user-data/workspace/prompt-file.json \
--reference-images /path/to/ref1.jpg \
--output-file /mnt/user-data/outputs/generated-video.mp4 \
--aspect-ratio 16:9
パラメータ:
--prompt-file: JSON プロンプトファイルの絶対パス (必須)--reference-images: 参照画像の絶対パス (オプション)--output-file: 出力ビデオファイルの絶対パス (必須)--aspect-ratio: 生成されたビデオのアスペクト比 (オプション、デフォルト: 16:9)
[!NOTE] python ファイルを読み込まないでください。代わりにパラメータを指定して呼び出すだけです。
ビデオ生成の例
ユーザーリクエスト: 「ナルニア国物語: ライオン、魔女、そして衣装部屋」の冒頭シーンを描いた短いビデオクリップを生成してください」
ステップ 1: 「ナルニア国物語: ライオン、魔女、そして衣装部屋」の冒頭シーンをオンラインで検索
ステップ 2: 次の内容で JSON プロンプトファイルを作成:
{
"title": "The Chronicles of Narnia - Train Station Farewell",
"background": {
"description": "World War II evacuation scene at a crowded London train station. Steam and smoke fill the air as children are being sent to the countryside to escape the Blitz.",
"era": "1940s wartime Britain",
"location": "London railway station platform"
},
"characters": ["Mrs. Pevensie", "Lucy Pevensie"],
"camera": {
"type": "Close-up two-shot",
"movement": "Static with subtle handheld movement",
"angle": "Profile view, intimate framing",
"focus": "Both faces in focus, background soft bokeh"
},
"dialogue": [
{
"character": "Mrs. Pevensie",
"text": "You must be brave for me, darling. I'll come for you... I promise."
},
{
"character": "Lucy Pevensie",
"text": "I will be, mother. I promise."
}
],
"audio": [
{
"type": "Train whistle blows (signaling departure)",
"volume": 1
},
{
"type": "Strings swell emotionally, then fade",
"volume": 0.5
},
{
"type": "Ambient sound of the train station",
"volume": 0.5
}
]
}
ステップ 3: image-generation スキルを使用して参照画像を生成
image-generation スキルを読み込み、スキルに従って単一の参照画像 narnia-farewell-scene-01.jpg を生成してください。
ステップ 4: generate.py スクリプトを使用してビデオを生成
python /mnt/skills/public/video-generation/scripts/generate.py \
--prompt-file /mnt/user-data/workspace/narnia-farewell-scene.json \
--reference-images /mnt/user-data/outputs/narnia-farewell-scene-01.jpg \
--output-file /mnt/user-data/outputs/narnia-farewell-scene-01.mp4 \
--aspect-ratio 16:9
python ファイルを読み込まないでください。パラメータを指定して呼び出すだけです。
出力処理
生成後:
- ビデオは通常
/mnt/user-data/outputs/に保存されます - 生成されたビデオ (最初に表示) と該当する場合は生成画像を
present_filesツールを使用してユーザーと共有してください - 生成結果の簡潔な説明を提供
- 調整が必要な場合は反復を提案
注意
- ユーザーの言語に関わらず、プロンプトには常に英語を使用してください
- JSON 形式により、構造化された解析可能なプロンプトが保証されます
- 参照画像は生成品質を大幅に向上させます
- 最適な結果を得るために、反復的な改善は通常のプロセスです
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- bytedance
- リポジトリ
- bytedance/deer-flow
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/bytedance/deer-flow / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。