Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

image-to-video

RunComfy上で静止画をアニメーション化するためのスマートルーターで、ユーザーの意図に最適なi2vモデルを自動選択します。汎用アニメーションにはHappyHorse 1.0 I2V、カスタム音声によるリップシンクにはWan 2.7、画像・参照動画・参照音声を組み合わせたマルチモーダル生成にはSeedance 2.0 Proを使い分け、各モデルに最適化されたプロンプトパターンを適用することで試行錯誤を最小限に抑えます。「image to video」「i2v」「animate image」「make this move」など、静止画を動画に変換したい場合に起動し、ローカルのRunComfy CLIを通じて実行されます。

description の原文を見る

> Animate any still image on RunComfy — this skill is a smart router that matches the user's intent to the right i2v model in the RunComfy catalog. Picks HappyHorse 1.0 I2V (Arena #1, native audio, identity preservation) for general animations, Wan 2.7 with `audio_url` for custom-voiceover lip-sync, or Seedance 2.0 Pro for multi-modal animation from image + reference video + reference audio. Bundles each model's documented prompting patterns so the caller gets sharper output without burning iterations on the wrong model. Calls `runcomfy run <vendor>/<model>/image-to-video` (or endpoint variant) through the local RunComfy CLI. Triggers on "image to video", "image-to-video", "i2v", "animate image", "make this move", or any explicit ask to turn a still into video.

SKILL.md 本文

Image-to-Video — Pro Pack on RunComfy

runcomfy.com · HappyHorse I2V · Wan 2.7 · Seedance 2.0 Pro · GitHub

画像からビデオへ、意図に基づいてルーティング。 このスキルは 1 つのモデルに限定しません — ユーザーが実際に望んでいることに基づいて、RunComfy カタログから適切な i2v モデルを選びます:ポートレートアニメーション、カスタムボイスオーバーのリップシンク、またはマルチモーダルコンポジション。

npx skills add agentspace-so/runcomfy-skills --skill image-to-video -g

ユーザーの意図に合わせて適切なモデルを選択

ユーザーの意図モデル理由
ポートレートをアニメーション化 — ID を安定させるHappyHorse 1.0 I2VArtificial Analysis Arena #1 (Elo 1392);強い顔の忠実性
商品リール / 360° / マクロモーションHappyHorse 1.0 I2Vジオメトリ保持 + スムーズなカメラムーブ
ネイティブ同期環境音声を 1 パスでHappyHorse 1.0 I2Vパス内オーディオ合成
カスタムボイスオーバートラック にアニメーション化 + リップシンクWan 2.7 + audio_url独自の MP3/WAV (3–30s, ≤15MB) を受け入れ、リップシンクを駆動
多言語ダブバリアント(同一画像、呼び出しごとに異なるオーディオ)Wan 2.7 + audio_url同じショット、言語ごとに audio_url を交換
マルチモーダル — 画像 + リファレンスビデオ + リファレンスオーディオSeedance 2.0 Pro最大 9 つの画像リファレンス、3 つのビデオリファレンス (各 2–15s)、3 つのオーディオリファレンス
ブランド一貫性のあるナレーション(キャラクタリファレンス + シーンリファレンス + ボイスリファレンス)Seedance 2.0 Pro画像は ID を保持、ビデオはシーンを保持、オーディオはボイスを保持
未指定の場合のデフォルトHappyHorse 1.0 I2V最高の全体的品質 + ネイティブオーディオ

エージェントがこのテーブルを読み、ユーザーの意図を分類し、下記の対応するサブセクションを選択します。

前提条件

  1. RunComfy CLInpm i -g @runcomfy/cli
  2. RunComfy アカウントruncomfy login でブラウザデバイスコードフローが開きます。
  3. CI / コンテナRUNCOMFY_TOKEN=<token> を設定します。
  4. ソース画像 URL — JPEG/PNG/WebP、最小 300px、≤10MB;アスペクト比 1:2.5 ~ 2.5:1 (HappyHorse) — 他のモデルも同様のスペック。

ルート 1: HappyHorse 1.0 I2V — ポートレート / 商品 / 一般的なアニメーションのデフォルト

モデル: happyhorse/happyhorse-1-0/image-to-video · Arena ランク: #1 (Elo 1392)

スキーマ

フィールドタイプ必須デフォルト注釈
image_urlstringはいJPEG/JPG/PNG/WEBP。最小 300px。アスペクト比 1:2.5–2.5:1。≤10MB。
promptstringはい≤5000 非 CJK または 2500 CJK 文字。モーション / カメラ / ライティング の説明。
resolutionenumいいえ1080P720P または 1080P
durationintいいえ53–15 秒。
seedintいいえ0バリアント比較用に再利用。
watermarkboolいいえtrueプロバイダーウォーターマークトグル。

出力アスペクト = 入力アスペクト。独立したリフレーミングはありません。

呼び出し

runcomfy run happyhorse/happyhorse-1-0/image-to-video \
  --input '{
    "image_url": "https://.../portrait.jpg",
    "prompt": "Gentle camera drift around the subject'\''s face, subtle breathing motion, identity-stable features, soft natural light."
  }' \
  --output-dir <absolute/path>

プロンプティングのコツ

  • モーション動詞で始める: 「drift」「dolly in」「orbit」「tilt up」「reveal」「blink」「breathe」。何が動いているかを前面に出す。
  • 画像を言い換えない — モデルは画像を見ています。トークンを何が変わるかに集中させます。
  • 保持の目標を明示的に: 「identity-stable features」「packaging unchanged」「background geometry stable」。
  • ライティング進化: 「rim light intensifying」「shadows shortening as camera rises」。
  • クリップごとに 1 つのビート — 単一のプライマリモーション (orbit または dolly または tilt またはキャラクターアクション)。

ルート 2: Wan 2.7 + audio_url — ユーザーがカスタムボイスオーバーを持っている場合

モデル: wan-ai/wan-2-7/text-to-video (NOT /image-to-video — Wan 2.7 の t2v エンドポイントはリップシンクを駆動する audio_url を受け入れます)

Wan 2.7 での i2v についての注意: Wan 2.7 のプライマリ i2v アニメーションはここでは専用エンドポイントではありません。純粋な i2v (モーションプロンプトのみでアニメーション化された画像) の場合は、HappyHorse i2v を推奨します。Wan 2.7 は、生成されたトーキングヘッドクリップにリップシンクさせたいカスタムオーディオトラックがあるユーザーの場合に特に使用します。

スキーマ (Wan 2.7 t2v + オーディオ)

フィールドタイプ必須デフォルト注釈
promptstringはい最大約 5000 文字。トーキングヘッドショットの説明:フレーミング、ライティング、モーション。
audio_urlstringはい (リップシンク用)WAV/MP3、3–30s、≤15MB。リップシンクを駆動。
aspect_ratioenumいいえ16:916:99:161:14:33:4
resolutionenumいいえ1080p720p または 1080p
durationenumいいえ52–15 (整数秒)。オーディオ長に合わせます。
negative_promptstringいいえ回避する具体的な問題 (例えば「no subtitles, no flicker」)。
seedintいいえ再現性。

呼び出し

runcomfy run wan-ai/wan-2-7/text-to-video \
  --input '{
    "prompt": "Medium close-up of a confident spokesperson in a softly-lit recording booth, leaning slightly toward the camera, locked tripod, shallow DOF, warm key light from camera-left.",
    "audio_url": "https://.../voiceover-en.mp3",
    "duration": 12,
    "aspect_ratio": "9:16"
  }' \
  --output-dir <absolute/path>

プロンプティングのコツ

  • トーキングヘッドショットを説明 — フレーミング、ライティング、レンズフィール。オーディオがリップシンクを駆動します。プロンプトはそれの周りのビジュアルフレームを構築します。
  • duration をオーディオ長に合わせる — オーディオを過ぎるとクリップは無音になります。
  • 問題に対して negative_prompt を使用: "no subtitles, no flicker, no distorted hands"
  • 多言語ダブの場合 — 同じプロンプト、呼び出しごとに audio_url を交換。ビジュアル一貫性のため言語全体でシードをロック。

ルート 3: Seedance 2.0 Pro — マルチモーダルアニメーション (画像 + リファレンスビデオ + リファレンスオーディオ)

モデル: bytedance/seedance-v2/pro

ユーザーが単一のクリップを望む場合に使用します。これは以下を組み合わせます:サブジェクト画像 + リファレンスビデオからのシーン + リファレンスオーディオからのボイストーン

スキーマ (Seedance 2.0 Pro、i2v 関連フィールド)

フィールドタイプ必須デフォルト注釈
promptstringはいCN ≤500 文字 または EN ≤1000 単語。
image_urlarrayはい (i2v 用)[]0–9 個の画像。最初がプライマリサブジェクト。
video_urlarrayいいえ[]0–3 個のリファレンスクリップ (MP4/MOV)、各 2–15s。
audio_urlarrayいいえ[]0–3 個のリファレンスオーディオ (WAV/MP3)、2–15s、各 < 15MB。
aspect_ratioenumいいえadaptiveadaptive16:99:164:33:41:121:9
durationintいいえ54–15 (整数秒)。
resolutionenumいいえ720p480p または 720p
generate_audioboolいいえtrueパス内同期スピーチ / SFX / ミュージック。
seedintいいえ再現性。

呼び出し

runcomfy run bytedance/seedance-v2/pro \
  --input '{
    "prompt": "Subject from image 1 walks through the café in video 1, voice tone matches audio 1. Medium close-up, slow push-in, warm light, gentle ambience.",
    "image_url": ["https://.../subject.jpg"],
    "video_url": ["https://.../cafe-locked-shot.mp4"],
    "audio_url": ["https://.../voice-tone.mp3"],
    "duration": 8
  }' \
  --output-dir <absolute/path>

プロンプティングのコツ

  • 画像とテキストの分割 — 安定していなければならないもの (顔、衣装、ブランド) に image_url を使用します。進化すべきもの (アクション、ムード、ライティング) に prompt を使用します。
  • プロンプトでリファレンスを番号付け: "subject from image 1, lighting from video 1, voice from audio 1"。Seedance がキューを正しくルーティングします。
  • リファレンスメディアスペック — ビデオ / オーディオは 2–15s である必要があります。オーディオ < 15MB。
  • 急進的に異なる美学を混ぜないでください — 画像 1 が水彩で、ビデオ 1 がフォトリアルな場合、出力はドリフトします。

制限事項

  • 各ルートはそのモデルの制限を継承します。 HappyHorse: 15s キャップ、出力アスペクト = 入力アスペクト。Wan 2.7: 15s キャップ、オーディオ 3–30s/15MB。Seedance: このテンプレートでは 720p シーリング、15s キャップ。
  • マルチルートブレンディングなし。 このスキルは呼び出しごとに 1 つのモデルを選択します。ユーザーが同じクリップで HappyHorse アニメーション + Wan スタイルリップシンクを望む場合、それは 2 つの呼び出し + ステッチです (ここでのスコープ外)。
  • ブランド固有のオーバーライド — ユーザーが列挙されていない特定のモデルバリアント (例えば Wan 2.6、Seedance 1.5) を指定した場合は、対応するブランドスキル (wan-2-7seedance-v2) にルーティングします。ここを通じて強制しないでください。

終了コード

コード意味
0成功
64不正な CLI 引数
65不正な入力 JSON / スキーマ不一致
69アップストリーム 5xx
75再試行可能: タイムアウト / 429
77サインインしていない、またはトークンが拒否された

完全なリファレンス: docs.runcomfy.com/cli/troubleshooting

仕組み

スキルはユーザー意図に基づいて HappyHorse 1.0 I2V / Wan 2.7 t2v+audio / Seedance 2.0 Pro の 1 つを選択し、マッチする JSON ボディで runcomfy run <model_id> を呼び出します。CLI は Model API に POST し、リクエストをポーリングし、結果をフェッチして、任意の .runcomfy.net/.runcomfy.com URL を --output-dir にダウンロードします。Ctrl-C は終了前にリモートリクエストをキャンセルします。

セキュリティとプライバシー

  • トークンストレージ: runcomfy login は API トークンを ~/.config/runcomfy/token.json に mode 0600 (所有者のみ読み書き可能) で書き込みます。CI / コンテナでは RUNCOMFY_TOKEN env 変数を設定してファイルを完全にバイパスします。
  • 入力境界: ユーザープロンプトは --input 経由で JSON 文字列として CLI に渡されます。CLI はプロンプトをシェル展開しません。JSON ボディを HTTPS 経由で Model API に直接送信します。プロンプトコンテンツからのシェルインジェクションサーフェスはありません。
  • サードパーティコンテンツ: 渡す画像 / マスク / ビデオ URL は RunComfy モデルサーバーによってフェッチされます。マシン上の CLI ではありません。外部 URL を信頼されていないものとして扱います。画像ベースのプロンプトインジェクションは、あらゆる画像編集 / ビデオ編集モデルの既知のリスクです。
  • アウトバウンドエンドポイント: model-api.runcomfy.net (リクエスト送信) および *.runcomfy.net / *.runcomfy.com (生成出力のダウンロードホワイトリスト) のみ。テレメトリ、コールバックなし。
  • 生成ファイルサイズキャップ: CLI は 2 GiB を超える単一ダウンロードを中止し、悪意あるまたは暴走するモデル出力からのディスク満杯を防ぎます。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
agentspace-so
リポジトリ
agentspace-so/runcomfy-agent-skills
ライセンス
MIT
最終更新
不明

Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: agentspace-so · agentspace-so/runcomfy-agent-skills · ライセンス: MIT