seedance-v2
RunComfy 上で ByteDance Seedance 2.0 Pro を使用して、シネマティックな短尺動画を生成します。最大9枚の画像・3本の動画・3つの音声を参照するマルチモーダル入力、自然なリップシンクを伴う音声同期、シネマティックなモーション処理に対応し、4〜15秒の動画を生成できます。「seedance」「bytedance video」などのキーワードや本モデルへの明示的なリクエストをトリガーに、ローカルの RunComfy CLI 経由で `runcomfy run bytedance/seedance-v2/pro` を実行します。
description の原文を見る
> Generate cinematic short-form video with ByteDance Seedance 2.0 Pro on RunComfy. Documents Seedance 2.0 Pro's strengths (multi-modal references — up to 9 images, 3 videos, 3 audio — synchronized in-pass audio with natural lip-sync, cinematic motion refinement), the 4–15s duration schema, and when to route to HappyHorse 1.0 / Wan 2.7 / Kling instead. Calls `runcomfy run bytedance/seedance-v2/pro` through the local RunComfy CLI. Triggers on "seedance", "seedance 2", "seedance v2", "seedance pro", "bytedance video", or any explicit ask to generate video with this model.
SKILL.md 本文
Seedance 2.0 Pro — RunComfy上のProパック
runcomfy.com · Seedance 2.0 Pro · GitHub
ByteDance Seedance 2.0 Pro — ネイティブリップシンク対応オーディオを搭載したマルチモーダルシネマティック動画ジェネレータで、RunComfy Model APIでホストされています。
npx skills add agentspace-so/runcomfy-skills --skill seedance-v2 -g
このモデルを選ぶべき場合(兄弟モデルとの比較)
Seedance 2.0 Proの独特な強みはマルチモーダルシネマティック短編です:キャラクター画像 + シーン動画 + 参照オーディオを1つのコヒーレントなショットに組み合わせます。参照アイデンティティ/シーンへの忠実度が重要で、ネイティブリップシンクが必要な場合に選択します。
| 求めるもの | 使用モデル |
|---|---|
| リップシンク対応のスポークスパーソン/ダイアログ広告 | Seedance 2.0 Pro |
| マルチモーダル参照(画像 + 動画 + オーディオ) | Seedance 2.0 Pro |
| ブランド一貫性のあるマルチ言語ナレーション | Seedance 2.0 Pro |
| 現在のブラインド投票による動画品質ランク1位 | HappyHorse 1.0 |
| 独自トラックから駆動するオーディオリップシンク | Wan 2.7 (audio_url) |
| 既存フッテージのモーション編集 | Kling Video O1 |
| 超高速反復 | LTX 2 |
ユーザーが「Seedance」/「Seedance 2」/「ByteDance video」を明示的に述べた場合、関係なくここにルーティングします。
前提条件
- RunComfy CLI —
npm i -g @runcomfy/cli - RunComfyアカウント —
runcomfy loginはブラウザデバイスコードフローを開きます。 - CI/コンテナ —
RUNCOMFY_TOKEN=<token>を代わりに設定します。
エンドポイント + 入力スキーマ
bytedance/seedance-v2/pro
| フィールド | タイプ | 必須 | デフォルト | 備考 |
|---|---|---|---|---|
prompt | 文字列 | はい | — | 中国語 ≤ 500字 または 英語 ≤ 1000語。 |
image_url | 配列 | いいえ | [] | 0~9個の参照(JPEG/PNG/WebP/BMP/TIFF/GIF)。 |
video_url | 配列 | いいえ | [] | 0~3個のクリップ(MP4/MOV)、各2~15秒。 |
audio_url | 配列 | いいえ | [] | 0~3個のオーディオ参照(WAV/MP3)、2~15秒、各<15MB。 |
aspect_ratio | 列挙型 | いいえ | adaptive | adaptive、16:9、9:16、4:3、3:4、1:1、21:9。 |
duration | 整数 | いいえ | 5 | 4~15(秒単位)。 |
resolution | 列挙型 | いいえ | 720p | 480pまたは720p。 |
generate_audio | ブール | いいえ | true | インパス同期音声/SFX/ミュージック。 |
seed | 整数 | いいえ | — | 再現性。 |
呼び出し方法
デフォルト(テキストのみ、5秒、オーディオ付き720p):
runcomfy run bytedance/seedance-v2/pro \
--input '{"prompt": "<user prompt>"}' \
--output-dir <absolute/path>
キャラクター参照(画像固定、テキスト進化)を含むリップシンク広告:
runcomfy run bytedance/seedance-v2/pro \
--input '{
"prompt": "Medium close-up. The woman explains today'\''s special in a warm friendly tone, slow push-in, soft window light, gentle cafe ambience.",
"image_url": ["https://.../barista-headshot.jpg"],
"duration": 8,
"aspect_ratio": "9:16"
}' \
--output-dir <absolute/path>
マルチモーダル(画像 + 動画 + オーディオ参照):
runcomfy run bytedance/seedance-v2/pro \
--input '{
"prompt": "Subject from image 1 walks through the café from video 1, voice tone matches audio 1.",
"image_url": ["https://.../subject.jpg"],
"video_url": ["https://.../cafe-locked-shot.mp4"],
"audio_url": ["https://.../voice-ref.mp3"]
}' \
--output-dir <absolute/path>
CLIが送信、ポーリング、結果を取得し、*.runcomfy.net/*.runcomfy.com URLを--output-dirにダウンロードします。
プロンプティング — 実際に機能すること
画像とテキストの分割。 これが最も重要なルールです。安定したアイデンティティ(顔、衣装、ブランドマーク、ロゴ)→ image_urlに入れます。進化するナレーション(アクション、ムード、ライティング、カメラ)→ promptに入れます。顔を詳細に言葉で説明しようとするとトークンを無駄にし、ドリフトが生じます。
カメラ + モーションを平易な言語で。 「Medium close-up」、「slow push-in」、「handheld follow」、「locked-off wide」はすべてディレクティブとして機能します。組み合わせます:"Medium close-up. Slow push-in over 3 seconds. Handheld, slight breathing motion."
generate_audio: trueによるオーディオ方向 — トーンを述べます:"warm friendly conversational"、"calm instructional"、"crisp newsroom delivery"。アンビエント用:"gentle cafe chatter, distant traffic, no foreground music"。
参照メディア仕様 — 動画は2~15秒である必要があります;オーディオは≤15MBで2~15秒である必要があります。範囲外のファイルは拒否されます。参照のアスペクト比を出力と一致させてクロップを避けます。
アンチパターン:
- 根本的に異なるエステティック参照の混合(水彩 + フォトリアル)→ 混乱させます。
- プロンプト内の競合するスタイルキュー → 矛盾を削除して簡略化します。
- 安定したアイデンティティを言葉で説明しようとする → 代わりに
image_urlを使用します。 -
15秒のクリップをリクエストする → 422;複数の呼び出しにセグメント化します。
優れている場面
| ユースケース | Seedance 2.0 Proである理由 |
|---|---|
| スポークスパーソン/ダイアログ広告 | ネイティブインパスリップシンク、別のTTSステップなし |
| ブランド一貫性のあるマルチ言語ナレーション | 画像参照がアイデンティティを保持、テキストが翻訳を駆動 |
| シネマティック短編フィルムプレビス | カメラショットグラマー + マルチモーダル参照 |
| 参照ミュージック/VO トーンを含む広告クリエイティブ | オーディオ参照がリップシンクをロックすることなく音声/ムードをガイド |
| 再現可能なバリアントテスト | シードコントロール + 固定スキーマ |
サンプルプロンプト(強い結果を生成することが確認された)
デフォルトプレイグラウンド例:
Golden hour on a quiet cafe terrace: a barista wipes the counter, then
looks up and explains today's special in a friendly tone, natural
lip-sync. Medium close-up, slow push-in; warm side light, soft bokeh
through glass, gentle cafe ambience and subtle film grain.
マルチモーダルリップシンク(テキスト + 画像):
Same person as image 1 in a softly-lit recording booth, leaning into
the mic, says: "We just shipped the biggest update of the year."
Calm conversational tone. Medium close-up, locked tripod, shallow DOF,
warm key light from camera-left.
制限事項
- 期間4~15秒 — このエンドポイントでは長いクリップはできません。
- 解像度の上限720p プレイグラウンドバリアント上。
- 参照メディア仕様 — 動画/オーディオは2~15秒である必要があります;オーディオ < 15MB。
- リップシンク品質 — プロンプト明確性に依存;すべての条件下で完璧である保証なし。
- キャラクターバインディングのための
@-シンタックスなし — 画像参照 + プロンプト配置に依存します。
終了コード
| コード | 意味 |
|---|---|
| 0 | 成功 |
| 64 | 不正なCLI引数 |
| 65 | 不正な入力JSON/スキーマ不一致 |
| 69 | アップストリーム5xx |
| 75 | 再試行可能:タイムアウト / 429 |
| 77 | サインインしていないか、トークン拒否 |
完全なリファレンス:docs.runcomfy.com/cli/troubleshooting。
仕組み
このスキルはスキーマに一致するJSONボディを使用してruncomfy run bytedance/seedance-v2/proを呼び出します。CLIがhttps://model-api.runcomfy.net/v1/models/bytedance/seedance-v2/proにPOST、リクエストをポーリング、結果を取得し、任意の.runcomfy.net/.runcomfy.com URLを--output-dirにダウンロードします。Ctrl-Cは終了前にリモートリクエストをキャンセルします。
セキュリティとプライバシー
- トークンストレージ:
runcomfy loginはAPIトークンを~/.config/runcomfy/token.jsonにモード0600(所有者のみ読み取り/書き込み)で書き込みます。CI/コンテナでRUNCOMFY_TOKEN環境変数を設定してファイル全体をバイパスします。 - 入力境界: ユーザープロンプトは
--inputを介してCLIにJSON文字列として渡されます。CLIはプロンプトをシェル展開しません;JSONボディをHTTPSを介してModel APIに直接送信します。プロンプト内容からのシェルインジェクション表面なし。 - サードパーティコンテンツ: 渡す画像/マスク/動画URLはCLI上のマシンではなくRunComfyモデルサーバーによってフェッチされます。外部URLを信頼されていないものとして扱います;画像ベースのプロンプトインジェクションはあらゆる画像編集/動画編集モデルの既知リスクです。
- アウトバウンドエンドポイント:
model-api.runcomfy.net(リクエスト送信)と*.runcomfy.net/*.runcomfy.com(生成出力のダウンロードホワイトリスト)のみ。テレメトリやコールバックなし。 - 生成ファイルサイズキャップ: CLIは悪意のある、または暴走したモデル出力からのディスク満杯を防ぐために、単一ダウンロード > 2 GiBを中止します。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- agentspace-so
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。