Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

image-to-video

Name: image-to-video
Author: agentspace-so

RunComfy上で静止画をアニメーション化するためのスマートルーターで、ユーザーの意図に最適なi2vモデルを自動選択します。汎用アニメーションにはHappyHorse 1.0 I2V、カスタム音声によるリップシンクにはWan 2.7、画像・参照動画・参照音声を組み合わせたマルチモーダル生成にはSeedance 2.0 Proを使い分け、各モデルに最適化されたプロンプトパターンを適用することで試行錯誤を最小限に抑えます。「image to video」「i2v」「animate image」「make this move」など、静止画を動画に変換したい場合に起動し、ローカルのRunComfy CLIを通じて実行されます。

description の原文を見る

> Animate any still image on RunComfy — this skill is a smart router that matches the user's intent to the right i2v model in the RunComfy catalog. Picks HappyHorse 1.0 I2V (Arena #1, native audio, identity preservation) for general animations, Wan 2.7 with `audio_url` for custom-voiceover lip-sync, or Seedance 2.0 Pro for multi-modal animation from image + reference video + reference audio. Bundles each model's documented prompting patterns so the caller gets sharper output without burning iterations on the wrong model. Calls `runcomfy run <vendor>/<model>/image-to-video` (or endpoint variant) through the local RunComfy CLI. Triggers on "image to video", "image-to-video", "i2v", "animate image", "make this move", or any explicit ask to turn a still into video.

SKILL.md 本文

Image-to-Video — Pro Pack on RunComfy

runcomfy.com · HappyHorse I2V · Wan 2.7 · Seedance 2.0 Pro · GitHub

画像からビデオへ、意図に基づいてルーティング。 このスキルは 1 つのモデルに限定しません — ユーザーが実際に望んでいることに基づいて、RunComfy カタログから適切な i2v モデルを選びます：ポートレートアニメーション、カスタムボイスオーバーのリップシンク、またはマルチモーダルコンポジション。

npx skills add agentspace-so/runcomfy-skills --skill image-to-video -g

ユーザーの意図に合わせて適切なモデルを選択

ユーザーの意図	モデル	理由
ポートレートをアニメーション化 — ID を安定させる	HappyHorse 1.0 I2V	Artificial Analysis Arena #1 (Elo 1392)；強い顔の忠実性
商品リール / 360° / マクロモーション	HappyHorse 1.0 I2V	ジオメトリ保持 + スムーズなカメラムーブ
ネイティブ同期環境音声を 1 パスで	HappyHorse 1.0 I2V	パス内オーディオ合成
カスタムボイスオーバートラックにアニメーション化 + リップシンク	Wan 2.7 + `audio_url`	独自の MP3/WAV (3–30s, ≤15MB) を受け入れ、リップシンクを駆動
多言語ダブバリアント（同一画像、呼び出しごとに異なるオーディオ）	Wan 2.7 + `audio_url`	同じショット、言語ごとに `audio_url` を交換
マルチモーダル — 画像 + リファレンスビデオ + リファレンスオーディオ	Seedance 2.0 Pro	最大 9 つの画像リファレンス、3 つのビデオリファレンス (各 2–15s)、3 つのオーディオリファレンス
ブランド一貫性のあるナレーション（キャラクタリファレンス + シーンリファレンス + ボイスリファレンス）	Seedance 2.0 Pro	画像は ID を保持、ビデオはシーンを保持、オーディオはボイスを保持
未指定の場合のデフォルト	HappyHorse 1.0 I2V	最高の全体的品質 + ネイティブオーディオ

エージェントがこのテーブルを読み、ユーザーの意図を分類し、下記の対応するサブセクションを選択します。

前提条件

RunComfy CLI — npm i -g @runcomfy/cli
RunComfy アカウント — runcomfy login でブラウザデバイスコードフローが開きます。
CI / コンテナ — RUNCOMFY_TOKEN=<token> を設定します。
ソース画像 URL — JPEG/PNG/WebP、最小 300px、≤10MB；アスペクト比 1:2.5 ～ 2.5:1 (HappyHorse) — 他のモデルも同様のスペック。

ルート 1: HappyHorse 1.0 I2V — ポートレート / 商品 / 一般的なアニメーションのデフォルト

モデル: happyhorse/happyhorse-1-0/image-to-video · Arena ランク: #1 (Elo 1392)

スキーマ

フィールド	タイプ	必須	デフォルト	注釈
`image_url`	string	はい	—	JPEG/JPG/PNG/WEBP。最小 300px。アスペクト比 1:2.5–2.5:1。≤10MB。
`prompt`	string	はい	—	≤5000 非 CJK または 2500 CJK 文字。モーション / カメラ / ライティングの説明。
`resolution`	enum	いいえ	`1080P`	`720P` または `1080P`。
`duration`	int	いいえ	5	3–15 秒。
`seed`	int	いいえ	0	バリアント比較用に再利用。
`watermark`	bool	いいえ	true	プロバイダーウォーターマークトグル。

出力アスペクト = 入力アスペクト。独立したリフレーミングはありません。

呼び出し

runcomfy run happyhorse/happyhorse-1-0/image-to-video \
  --input '{
    "image_url": "https://.../portrait.jpg",
    "prompt": "Gentle camera drift around the subject'\''s face, subtle breathing motion, identity-stable features, soft natural light."
  }' \
  --output-dir <absolute/path>

プロンプティングのコツ

モーション動詞で始める: 「drift」「dolly in」「orbit」「tilt up」「reveal」「blink」「breathe」。何が動いているかを前面に出す。
画像を言い換えない — モデルは画像を見ています。トークンを何が変わるかに集中させます。
保持の目標を明示的に: 「identity-stable features」「packaging unchanged」「background geometry stable」。
ライティング進化: 「rim light intensifying」「shadows shortening as camera rises」。
クリップごとに 1 つのビート — 単一のプライマリモーション (orbit または dolly または tilt またはキャラクターアクション)。

ルート 2: Wan 2.7 + `audio_url` — ユーザーがカスタムボイスオーバーを持っている場合

モデル: wan-ai/wan-2-7/text-to-video (NOT /image-to-video — Wan 2.7 の t2v エンドポイントはリップシンクを駆動する audio_url を受け入れます)

Wan 2.7 での i2v についての注意: Wan 2.7 のプライマリ i2v アニメーションはここでは専用エンドポイントではありません。純粋な i2v (モーションプロンプトのみでアニメーション化された画像) の場合は、HappyHorse i2v を推奨します。Wan 2.7 は、生成されたトーキングヘッドクリップにリップシンクさせたいカスタムオーディオトラックがあるユーザーの場合に特に使用します。

スキーマ (Wan 2.7 t2v + オーディオ)

フィールド	タイプ	必須	デフォルト	注釈
`prompt`	string	はい	—	最大約 5000 文字。トーキングヘッドショットの説明：フレーミング、ライティング、モーション。
`audio_url`	string	はい (リップシンク用)	—	WAV/MP3、3–30s、≤15MB。リップシンクを駆動。
`aspect_ratio`	enum	いいえ	`16:9`	`16:9`、`9:16`、`1:1`、`4:3`、`3:4`。
`resolution`	enum	いいえ	`1080p`	`720p` または `1080p`。
`duration`	enum	いいえ	`5`	2–15 (整数秒)。オーディオ長に合わせます。
`negative_prompt`	string	いいえ	—	回避する具体的な問題 (例えば「no subtitles, no flicker」)。
`seed`	int	いいえ	—	再現性。

呼び出し

runcomfy run wan-ai/wan-2-7/text-to-video \
  --input '{
    "prompt": "Medium close-up of a confident spokesperson in a softly-lit recording booth, leaning slightly toward the camera, locked tripod, shallow DOF, warm key light from camera-left.",
    "audio_url": "https://.../voiceover-en.mp3",
    "duration": 12,
    "aspect_ratio": "9:16"
  }' \
  --output-dir <absolute/path>

プロンプティングのコツ

トーキングヘッドショットを説明 — フレーミング、ライティング、レンズフィール。オーディオがリップシンクを駆動します。プロンプトはそれの周りのビジュアルフレームを構築します。
duration をオーディオ長に合わせる — オーディオを過ぎるとクリップは無音になります。
問題に対して negative_prompt を使用: "no subtitles, no flicker, no distorted hands"。
多言語ダブの場合 — 同じプロンプト、呼び出しごとに audio_url を交換。ビジュアル一貫性のため言語全体でシードをロック。

ルート 3: Seedance 2.0 Pro — マルチモーダルアニメーション (画像 + リファレンスビデオ + リファレンスオーディオ)

モデル: bytedance/seedance-v2/pro

ユーザーが単一のクリップを望む場合に使用します。これは以下を組み合わせます：サブジェクト画像 + リファレンスビデオからのシーン + リファレンスオーディオからのボイストーン。

スキーマ (Seedance 2.0 Pro、i2v 関連フィールド)

フィールド	タイプ	必須	デフォルト	注釈
`prompt`	string	はい	—	CN ≤500 文字または EN ≤1000 単語。
`image_url`	array	はい (i2v 用)	`[]`	0–9 個の画像。最初がプライマリサブジェクト。
`video_url`	array	いいえ	`[]`	0–3 個のリファレンスクリップ (MP4/MOV)、各 2–15s。
`audio_url`	array	いいえ	`[]`	0–3 個のリファレンスオーディオ (WAV/MP3)、2–15s、各 < 15MB。
`aspect_ratio`	enum	いいえ	`adaptive`	`adaptive`、`16:9`、`9:16`、`4:3`、`3:4`、`1:1`、`21:9`。
`duration`	int	いいえ	5	4–15 (整数秒)。
`resolution`	enum	いいえ	`720p`	`480p` または `720p`。
`generate_audio`	bool	いいえ	true	パス内同期スピーチ / SFX / ミュージック。
`seed`	int	いいえ	—	再現性。

呼び出し

runcomfy run bytedance/seedance-v2/pro \
  --input '{
    "prompt": "Subject from image 1 walks through the café in video 1, voice tone matches audio 1. Medium close-up, slow push-in, warm light, gentle ambience.",
    "image_url": ["https://.../subject.jpg"],
    "video_url": ["https://.../cafe-locked-shot.mp4"],
    "audio_url": ["https://.../voice-tone.mp3"],
    "duration": 8
  }' \
  --output-dir <absolute/path>

プロンプティングのコツ

画像とテキストの分割 — 安定していなければならないもの (顔、衣装、ブランド) に image_url を使用します。進化すべきもの (アクション、ムード、ライティング) に prompt を使用します。
プロンプトでリファレンスを番号付け: "subject from image 1, lighting from video 1, voice from audio 1"。Seedance がキューを正しくルーティングします。
リファレンスメディアスペック — ビデオ / オーディオは 2–15s である必要があります。オーディオ < 15MB。
急進的に異なる美学を混ぜないでください — 画像 1 が水彩で、ビデオ 1 がフォトリアルな場合、出力はドリフトします。

制限事項

各ルートはそのモデルの制限を継承します。 HappyHorse: 15s キャップ、出力アスペクト = 入力アスペクト。Wan 2.7: 15s キャップ、オーディオ 3–30s/15MB。Seedance: このテンプレートでは 720p シーリング、15s キャップ。
マルチルートブレンディングなし。 このスキルは呼び出しごとに 1 つのモデルを選択します。ユーザーが同じクリップで HappyHorse アニメーション + Wan スタイルリップシンクを望む場合、それは 2 つの呼び出し + ステッチです (ここでのスコープ外)。
ブランド固有のオーバーライド — ユーザーが列挙されていない特定のモデルバリアント (例えば Wan 2.6、Seedance 1.5) を指定した場合は、対応するブランドスキル (wan-2-7、seedance-v2) にルーティングします。ここを通じて強制しないでください。

終了コード

コード	意味
0	成功
64	不正な CLI 引数
65	不正な入力 JSON / スキーマ不一致
69	アップストリーム 5xx
75	再試行可能: タイムアウト / 429
77	サインインしていない、またはトークンが拒否された

完全なリファレンス: docs.runcomfy.com/cli/troubleshooting。

仕組み

スキルはユーザー意図に基づいて HappyHorse 1.0 I2V / Wan 2.7 t2v+audio / Seedance 2.0 Pro の 1 つを選択し、マッチする JSON ボディで runcomfy run <model_id> を呼び出します。CLI は Model API に POST し、リクエストをポーリングし、結果をフェッチして、任意の .runcomfy.net/.runcomfy.com URL を --output-dir にダウンロードします。Ctrl-C は終了前にリモートリクエストをキャンセルします。

セキュリティとプライバシー

トークンストレージ: runcomfy login は API トークンを ~/.config/runcomfy/token.json に mode 0600 (所有者のみ読み書き可能) で書き込みます。CI / コンテナでは RUNCOMFY_TOKEN env 変数を設定してファイルを完全にバイパスします。
入力境界: ユーザープロンプトは --input 経由で JSON 文字列として CLI に渡されます。CLI はプロンプトをシェル展開しません。JSON ボディを HTTPS 経由で Model API に直接送信します。プロンプトコンテンツからのシェルインジェクションサーフェスはありません。
サードパーティコンテンツ: 渡す画像 / マスク / ビデオ URL は RunComfy モデルサーバーによってフェッチされます。マシン上の CLI ではありません。外部 URL を信頼されていないものとして扱います。画像ベースのプロンプトインジェクションは、あらゆる画像編集 / ビデオ編集モデルの既知のリスクです。
アウトバウンドエンドポイント: model-api.runcomfy.net (リクエスト送信) および *.runcomfy.net / *.runcomfy.com (生成出力のダウンロードホワイトリスト) のみ。テレメトリ、コールバックなし。
生成ファイルサイズキャップ: CLI は 2 GiB を超える単一ダウンロードを中止し、悪意あるまたは暴走するモデル出力からのディスク満杯を防ぎます。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: agentspace-so
リポジトリ: agentspace-so/runcomfy-agent-skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT

image-to-video

SKILL.md 本文

Image-to-Video — Pro Pack on RunComfy

ユーザーの意図に合わせて適切なモデルを選択

前提条件

ルート 1: HappyHorse 1.0 I2V — ポートレート / 商品 / 一般的なアニメーションのデフォルト

スキーマ

呼び出し

プロンプティングのコツ

ルート 2: Wan 2.7 + `audio_url` — ユーザーがカスタムボイスオーバーを持っている場合

スキーマ (Wan 2.7 t2v + オーディオ)

呼び出し

プロンプティングのコツ

ルート 3: Seedance 2.0 Pro — マルチモーダルアニメーション (画像 + リファレンスビデオ + リファレンスオーディオ)

スキーマ (Seedance 2.0 Pro、i2v 関連フィールド)

呼び出し

プロンプティングのコツ

制限事項

終了コード

仕組み

セキュリティとプライバシー

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui

SKILL.md 本文

Image-to-Video — Pro Pack on RunComfy

ユーザーの意図に合わせて適切なモデルを選択

前提条件

ルート 1: HappyHorse 1.0 I2V — ポートレート / 商品 / 一般的なアニメーションのデフォルト

スキーマ

呼び出し

プロンプティングのコツ

ルート 2: Wan 2.7 + audio_url — ユーザーがカスタムボイスオーバーを持っている場合

スキーマ (Wan 2.7 t2v + オーディオ)

呼び出し

プロンプティングのコツ

ルート 3: Seedance 2.0 Pro — マルチモーダルアニメーション (画像 + リファレンスビデオ + リファレンスオーディオ)

スキーマ (Seedance 2.0 Pro、i2v 関連フィールド)

呼び出し

プロンプティングのコツ

制限事項

終了コード

仕組み

セキュリティとプライバシー

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui

ルート 2: Wan 2.7 + `audio_url` — ユーザーがカスタムボイスオーバーを持っている場合