image-to-video
RunComfy上で静止画をアニメーション化するためのスマートルーターで、ユーザーの意図に最適なi2vモデルを自動選択します。汎用アニメーションにはHappyHorse 1.0 I2V、カスタム音声によるリップシンクにはWan 2.7、画像・参照動画・参照音声を組み合わせたマルチモーダル生成にはSeedance 2.0 Proを使い分け、各モデルに最適化されたプロンプトパターンを適用することで試行錯誤を最小限に抑えます。「image to video」「i2v」「animate image」「make this move」など、静止画を動画に変換したい場合に起動し、ローカルのRunComfy CLIを通じて実行されます。
description の原文を見る
> Animate any still image on RunComfy — this skill is a smart router that matches the user's intent to the right i2v model in the RunComfy catalog. Picks HappyHorse 1.0 I2V (Arena #1, native audio, identity preservation) for general animations, Wan 2.7 with `audio_url` for custom-voiceover lip-sync, or Seedance 2.0 Pro for multi-modal animation from image + reference video + reference audio. Bundles each model's documented prompting patterns so the caller gets sharper output without burning iterations on the wrong model. Calls `runcomfy run <vendor>/<model>/image-to-video` (or endpoint variant) through the local RunComfy CLI. Triggers on "image to video", "image-to-video", "i2v", "animate image", "make this move", or any explicit ask to turn a still into video.
SKILL.md 本文
Image-to-Video — Pro Pack on RunComfy
runcomfy.com · HappyHorse I2V · Wan 2.7 · Seedance 2.0 Pro · GitHub
画像からビデオへ、意図に基づいてルーティング。 このスキルは 1 つのモデルに限定しません — ユーザーが実際に望んでいることに基づいて、RunComfy カタログから適切な i2v モデルを選びます:ポートレートアニメーション、カスタムボイスオーバーのリップシンク、またはマルチモーダルコンポジション。
npx skills add agentspace-so/runcomfy-skills --skill image-to-video -g
ユーザーの意図に合わせて適切なモデルを選択
| ユーザーの意図 | モデル | 理由 |
|---|---|---|
| ポートレートをアニメーション化 — ID を安定させる | HappyHorse 1.0 I2V | Artificial Analysis Arena #1 (Elo 1392);強い顔の忠実性 |
| 商品リール / 360° / マクロモーション | HappyHorse 1.0 I2V | ジオメトリ保持 + スムーズなカメラムーブ |
| ネイティブ同期環境音声を 1 パスで | HappyHorse 1.0 I2V | パス内オーディオ合成 |
| カスタムボイスオーバートラック にアニメーション化 + リップシンク | Wan 2.7 + audio_url | 独自の MP3/WAV (3–30s, ≤15MB) を受け入れ、リップシンクを駆動 |
| 多言語ダブバリアント(同一画像、呼び出しごとに異なるオーディオ) | Wan 2.7 + audio_url | 同じショット、言語ごとに audio_url を交換 |
| マルチモーダル — 画像 + リファレンスビデオ + リファレンスオーディオ | Seedance 2.0 Pro | 最大 9 つの画像リファレンス、3 つのビデオリファレンス (各 2–15s)、3 つのオーディオリファレンス |
| ブランド一貫性のあるナレーション(キャラクタリファレンス + シーンリファレンス + ボイスリファレンス) | Seedance 2.0 Pro | 画像は ID を保持、ビデオはシーンを保持、オーディオはボイスを保持 |
| 未指定の場合のデフォルト | HappyHorse 1.0 I2V | 最高の全体的品質 + ネイティブオーディオ |
エージェントがこのテーブルを読み、ユーザーの意図を分類し、下記の対応するサブセクションを選択します。
前提条件
- RunComfy CLI —
npm i -g @runcomfy/cli - RunComfy アカウント —
runcomfy loginでブラウザデバイスコードフローが開きます。 - CI / コンテナ —
RUNCOMFY_TOKEN=<token>を設定します。 - ソース画像 URL — JPEG/PNG/WebP、最小 300px、≤10MB;アスペクト比 1:2.5 ~ 2.5:1 (HappyHorse) — 他のモデルも同様のスペック。
ルート 1: HappyHorse 1.0 I2V — ポートレート / 商品 / 一般的なアニメーションのデフォルト
モデル: happyhorse/happyhorse-1-0/image-to-video · Arena ランク: #1 (Elo 1392)
スキーマ
| フィールド | タイプ | 必須 | デフォルト | 注釈 |
|---|---|---|---|---|
image_url | string | はい | — | JPEG/JPG/PNG/WEBP。最小 300px。アスペクト比 1:2.5–2.5:1。≤10MB。 |
prompt | string | はい | — | ≤5000 非 CJK または 2500 CJK 文字。モーション / カメラ / ライティング の説明。 |
resolution | enum | いいえ | 1080P | 720P または 1080P。 |
duration | int | いいえ | 5 | 3–15 秒。 |
seed | int | いいえ | 0 | バリアント比較用に再利用。 |
watermark | bool | いいえ | true | プロバイダーウォーターマークトグル。 |
出力アスペクト = 入力アスペクト。独立したリフレーミングはありません。
呼び出し
runcomfy run happyhorse/happyhorse-1-0/image-to-video \
--input '{
"image_url": "https://.../portrait.jpg",
"prompt": "Gentle camera drift around the subject'\''s face, subtle breathing motion, identity-stable features, soft natural light."
}' \
--output-dir <absolute/path>
プロンプティングのコツ
- モーション動詞で始める: 「drift」「dolly in」「orbit」「tilt up」「reveal」「blink」「breathe」。何が動いているかを前面に出す。
- 画像を言い換えない — モデルは画像を見ています。トークンを何が変わるかに集中させます。
- 保持の目標を明示的に: 「identity-stable features」「packaging unchanged」「background geometry stable」。
- ライティング進化: 「rim light intensifying」「shadows shortening as camera rises」。
- クリップごとに 1 つのビート — 単一のプライマリモーション (orbit または dolly または tilt またはキャラクターアクション)。
ルート 2: Wan 2.7 + audio_url — ユーザーがカスタムボイスオーバーを持っている場合
モデル: wan-ai/wan-2-7/text-to-video (NOT /image-to-video — Wan 2.7 の t2v エンドポイントはリップシンクを駆動する audio_url を受け入れます)
Wan 2.7 での i2v についての注意: Wan 2.7 のプライマリ i2v アニメーションはここでは専用エンドポイントではありません。純粋な i2v (モーションプロンプトのみでアニメーション化された画像) の場合は、HappyHorse i2v を推奨します。Wan 2.7 は、生成されたトーキングヘッドクリップにリップシンクさせたいカスタムオーディオトラックがあるユーザーの場合に特に使用します。
スキーマ (Wan 2.7 t2v + オーディオ)
| フィールド | タイプ | 必須 | デフォルト | 注釈 |
|---|---|---|---|---|
prompt | string | はい | — | 最大約 5000 文字。トーキングヘッドショットの説明:フレーミング、ライティング、モーション。 |
audio_url | string | はい (リップシンク用) | — | WAV/MP3、3–30s、≤15MB。リップシンクを駆動。 |
aspect_ratio | enum | いいえ | 16:9 | 16:9、9:16、1:1、4:3、3:4。 |
resolution | enum | いいえ | 1080p | 720p または 1080p。 |
duration | enum | いいえ | 5 | 2–15 (整数秒)。オーディオ長に合わせます。 |
negative_prompt | string | いいえ | — | 回避する具体的な問題 (例えば「no subtitles, no flicker」)。 |
seed | int | いいえ | — | 再現性。 |
呼び出し
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{
"prompt": "Medium close-up of a confident spokesperson in a softly-lit recording booth, leaning slightly toward the camera, locked tripod, shallow DOF, warm key light from camera-left.",
"audio_url": "https://.../voiceover-en.mp3",
"duration": 12,
"aspect_ratio": "9:16"
}' \
--output-dir <absolute/path>
プロンプティングのコツ
- トーキングヘッドショットを説明 — フレーミング、ライティング、レンズフィール。オーディオがリップシンクを駆動します。プロンプトはそれの周りのビジュアルフレームを構築します。
durationをオーディオ長に合わせる — オーディオを過ぎるとクリップは無音になります。- 問題に対して
negative_promptを使用:"no subtitles, no flicker, no distorted hands"。 - 多言語ダブの場合 — 同じプロンプト、呼び出しごとに
audio_urlを交換。ビジュアル一貫性のため言語全体でシードをロック。
ルート 3: Seedance 2.0 Pro — マルチモーダルアニメーション (画像 + リファレンスビデオ + リファレンスオーディオ)
モデル: bytedance/seedance-v2/pro
ユーザーが単一のクリップを望む場合に使用します。これは以下を組み合わせます:サブジェクト画像 + リファレンスビデオからのシーン + リファレンスオーディオからのボイストーン。
スキーマ (Seedance 2.0 Pro、i2v 関連フィールド)
| フィールド | タイプ | 必須 | デフォルト | 注釈 |
|---|---|---|---|---|
prompt | string | はい | — | CN ≤500 文字 または EN ≤1000 単語。 |
image_url | array | はい (i2v 用) | [] | 0–9 個の画像。最初がプライマリサブジェクト。 |
video_url | array | いいえ | [] | 0–3 個のリファレンスクリップ (MP4/MOV)、各 2–15s。 |
audio_url | array | いいえ | [] | 0–3 個のリファレンスオーディオ (WAV/MP3)、2–15s、各 < 15MB。 |
aspect_ratio | enum | いいえ | adaptive | adaptive、16:9、9:16、4:3、3:4、1:1、21:9。 |
duration | int | いいえ | 5 | 4–15 (整数秒)。 |
resolution | enum | いいえ | 720p | 480p または 720p。 |
generate_audio | bool | いいえ | true | パス内同期スピーチ / SFX / ミュージック。 |
seed | int | いいえ | — | 再現性。 |
呼び出し
runcomfy run bytedance/seedance-v2/pro \
--input '{
"prompt": "Subject from image 1 walks through the café in video 1, voice tone matches audio 1. Medium close-up, slow push-in, warm light, gentle ambience.",
"image_url": ["https://.../subject.jpg"],
"video_url": ["https://.../cafe-locked-shot.mp4"],
"audio_url": ["https://.../voice-tone.mp3"],
"duration": 8
}' \
--output-dir <absolute/path>
プロンプティングのコツ
- 画像とテキストの分割 — 安定していなければならないもの (顔、衣装、ブランド) に
image_urlを使用します。進化すべきもの (アクション、ムード、ライティング) にpromptを使用します。 - プロンプトでリファレンスを番号付け:
"subject from image 1, lighting from video 1, voice from audio 1"。Seedance がキューを正しくルーティングします。 - リファレンスメディアスペック — ビデオ / オーディオは 2–15s である必要があります。オーディオ < 15MB。
- 急進的に異なる美学を混ぜないでください — 画像 1 が水彩で、ビデオ 1 がフォトリアルな場合、出力はドリフトします。
制限事項
- 各ルートはそのモデルの制限を継承します。 HappyHorse: 15s キャップ、出力アスペクト = 入力アスペクト。Wan 2.7: 15s キャップ、オーディオ 3–30s/15MB。Seedance: このテンプレートでは 720p シーリング、15s キャップ。
- マルチルートブレンディングなし。 このスキルは呼び出しごとに 1 つのモデルを選択します。ユーザーが同じクリップで HappyHorse アニメーション + Wan スタイルリップシンクを望む場合、それは 2 つの呼び出し + ステッチです (ここでのスコープ外)。
- ブランド固有のオーバーライド — ユーザーが列挙されていない特定のモデルバリアント (例えば Wan 2.6、Seedance 1.5) を指定した場合は、対応するブランドスキル (
wan-2-7、seedance-v2) にルーティングします。ここを通じて強制しないでください。
終了コード
| コード | 意味 |
|---|---|
| 0 | 成功 |
| 64 | 不正な CLI 引数 |
| 65 | 不正な入力 JSON / スキーマ不一致 |
| 69 | アップストリーム 5xx |
| 75 | 再試行可能: タイムアウト / 429 |
| 77 | サインインしていない、またはトークンが拒否された |
完全なリファレンス: docs.runcomfy.com/cli/troubleshooting。
仕組み
スキルはユーザー意図に基づいて HappyHorse 1.0 I2V / Wan 2.7 t2v+audio / Seedance 2.0 Pro の 1 つを選択し、マッチする JSON ボディで runcomfy run <model_id> を呼び出します。CLI は Model API に POST し、リクエストをポーリングし、結果をフェッチして、任意の .runcomfy.net/.runcomfy.com URL を --output-dir にダウンロードします。Ctrl-C は終了前にリモートリクエストをキャンセルします。
セキュリティとプライバシー
- トークンストレージ:
runcomfy loginは API トークンを~/.config/runcomfy/token.jsonに mode 0600 (所有者のみ読み書き可能) で書き込みます。CI / コンテナではRUNCOMFY_TOKENenv 変数を設定してファイルを完全にバイパスします。 - 入力境界: ユーザープロンプトは
--input経由で JSON 文字列として CLI に渡されます。CLI はプロンプトをシェル展開しません。JSON ボディを HTTPS 経由で Model API に直接送信します。プロンプトコンテンツからのシェルインジェクションサーフェスはありません。 - サードパーティコンテンツ: 渡す画像 / マスク / ビデオ URL は RunComfy モデルサーバーによってフェッチされます。マシン上の CLI ではありません。外部 URL を信頼されていないものとして扱います。画像ベースのプロンプトインジェクションは、あらゆる画像編集 / ビデオ編集モデルの既知のリスクです。
- アウトバウンドエンドポイント:
model-api.runcomfy.net(リクエスト送信) および*.runcomfy.net/*.runcomfy.com(生成出力のダウンロードホワイトリスト) のみ。テレメトリ、コールバックなし。 - 生成ファイルサイズキャップ: CLI は 2 GiB を超える単一ダウンロードを中止し、悪意あるまたは暴走するモデル出力からのディスク満杯を防ぎます。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- agentspace-so
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。