wan-2-7
RunComfy上でWan 2.7(Wan-AIのフラッグシップモーションモデル)を使用したテキストから動画の生成を行います。マルチリファレンスコンディショニング・`audio_url`による音声駆動リップシンク・スムーズなトランジション・プロンプト拡張などの強みや、尺・解像度・アスペクト比のスキーマ、またHappyHorse 1.0 / Seedance 2.0 / Kling / LTX 2への振り分け基準を把握した上で、ローカルのRunComfy CLIを通じて`runcomfy run wan-ai/wan-2-7/text-to-video`を呼び出します。「wan」「wan 2.7」「wan-2-7」「wan video」またはこのモデルによる動画生成の明示的なリクエストをトリガーとして起動します。
description の原文を見る
> Generate text-to-video with Wan 2.7 (Wan-AI's flagship motion model) on RunComfy. Documents Wan 2.7's strengths (multi-reference conditioning, audio-driven lip-sync via `audio_url`, smoother transitions, prompt expansion), the duration / resolution / aspect-ratio schema, and when to route to HappyHorse 1.0 / Seedance 2.0 / Kling / LTX 2 instead. Calls `runcomfy run wan-ai/wan-2-7/text-to-video` through the local RunComfy CLI. Triggers on "wan", "wan 2.7", "wan-2-7", "wan video", or any explicit ask to generate video with this model.
SKILL.md 本文
Wan 2.7 — Pro Pack on RunComfy
runcomfy.com · Text-to-video · GitHub
Wan-AI の Wan 2.7 — マルチリファレンス条件付けとオーディオドリブンなリップシンク機能を備えたフラッグシップビデオモデル — RunComfy Model API でホストされています。
npx skills add agentspace-so/runcomfy-skills --skill wan-2-7 -g
このモデルを選ぶべき場合(他のモデルとの比較)
| やりたいこと | 使用モデル |
|---|---|
| 提供したオーディオトラックにリップシンクするビデオを生成 | Wan 2.7 (audio_url) |
| マルチリファレンスの細かいモーション制御 | Wan 2.7 |
| スムーズなトランジション、正確なモーション物理演算 | Wan 2.7 |
| 現在のナンバー1ブラインドテスト優勝ビデオモデル | HappyHorse 1.0 |
| 画像 + ビデオ + オーディオリファレンスと通過中音声生成を含むマルチモーダルシネマティック | Seedance 2.0 Pro |
| 既存フッテージのシネマティックモーション編集 | Kling Video O1 |
| 超高速イテレーション | LTX 2 |
ユーザーが「Wan」「Wan 2.7」「wan-ai」「alibaba video」と明示的に言及した場合は、それがどれであってもここにルーティングしてください。
前提条件
- RunComfy CLI —
npm i -g @runcomfy/cli - RunComfy アカウント —
runcomfy loginでブラウザのデバイスコードフローが開きます。 - CI / コンテナ —
runcomfy loginの代わりにRUNCOMFY_TOKEN=<token>を設定します。
エンドポイント + 入力スキーマ
wan-ai/wan-2-7/text-to-video
| フィールド | 型 | 必須 | デフォルト | 備考 |
|---|---|---|---|---|
prompt | string | yes | — | 最大 ~5000 文字 / ~1500 トークン |
audio_url | string | no | — | WAV/MP3、3~30秒、≤15MB。リップシンクを駆動します。 省略 → バックグラウンド音楽を自動生成 |
aspect_ratio | enum | no | 16:9 | 16:9、9:16、1:1、4:3、3:4 |
resolution | enum | no | 1080p | 720p または 1080p |
duration | enum | no | 5 | 2~15 (全秒数) |
negative_prompt | string | no | — | 最大 500 文字。回避すべき具体的な問題 |
enable_prompt_expansion | bool | no | true | 短いプロンプトを自動改書。細かい制御が必要な場合は無効化 |
seed | int | no | — | 0..2^31-1。バリエーション生成時に再利用 |
呼び出し方法
デフォルト(5秒 1080p 16:9、プロンプト拡張有効):
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{"prompt": "<user prompt>"}' \
--output-dir <absolute/path>
オーディオドリブンリップシンク(自分のトラックを使用):
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{
"prompt": "Medium close-up of the spokesperson, warm key light, locked tripod, slight breathing motion.",
"audio_url": "https://.../voiceover.mp3",
"duration": 12,
"aspect_ratio": "9:16"
}' \
--output-dir <absolute/path>
細かい制御(自動拡張なし):
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{
"prompt": "<exactly what you want, verbatim>",
"enable_prompt_expansion": false,
"negative_prompt": "no subtitles, no flicker, no distorted hands"
}' \
--output-dir <absolute/path>
プロンプティング — 実際に機能するもの
カメラとモーションを平易な英語で。 「Slow dolly in」「locked tripod, low angle」「handheld follow」「crane move from above」などです。ショットを最初に記述します。
1 クリップあたり 1 つの主要アクション。 複数の競合するアクションを積み重ねないでください。1 つのビートを選びます。「she turns, then smiles」であって「she turns AND smiles AND a bus passes AND...」ではありません。
具体的な問題には negative_prompt を使用。 良い例:「no subtitles, no watermark, no flicker」。悪い例(曖昧):「no bad lighting」。
プロンプト拡張はデフォルトで有効。 短いプロンプトはモデルによって自動改書されます。簡潔なプロンプトまたは文字通りのプロンプト(例:ブランドに厳密な広告コピー)の場合は、enable_prompt_expansion: false で無効化します。
オーディオ仕様は重要。 audio_url は 3~30秒、≤15MB、WAV/MP3 である必要があります。範囲外のファイルは拒否されます。オーディオ長をクリップ長に合わせます。
シードを反復処理。 同じプロンプトのバリエーション全体で一貫性のある出力が必要な場合、同じシードを再利用します。本当のバリエーションが必要な場合、シードを変更します。
アンチパターン:
- 静止フレーム記述 → モーションが曖昧になります。
- 曖昧なネガティブプロンプト(「no bad colors」)→ 無視されます。
- 3~30秒 / 15MB / WAV-MP3 仕様外のオーディオ → 拒否されます。
- 5000 文字 / 1500 トークン超のプロンプト → 出力品質が低下します。
得意な領域
| ユースケース | Wan 2.7 が優れている理由 |
|---|---|
| カスタムボイスオーバー付きのリップシンク広告 | audio_url が自分のトラックを受け入れます |
| 多言語ダブバージョン | 同じプロンプト、言語ごとに異なる audio_url |
| マルチリファレンスモーション制御 | 最大 5 つのリファレンスメディア(画像 / ビデオ / 音声) |
| スムーズなトランジション + モーション物理演算 | 強いな物理認識モーションプライア |
| ネガティブプロンプト付きクリーン出力 | ターゲット指向の問題除外 |
サンプルプロンプト(強い結果を生み出すことが検証済み)
ページ例(製品ショーケース):
Cinematic medium shot of a product on a marble surface, soft studio
lighting, slow subtle camera push-in, shallow depth of field, premium
commercial look, crisp 1080p detail
リップシンク話者(audio_url 付き):
Medium close-up of a confident spokesperson in a softly-lit recording
booth, leaning slightly toward the camera, locked tripod, shallow depth
of field, warm key light from camera-left.
垂直プラットフォームネイティブ:
9:16 vertical short. A barista pulls a single espresso shot, steam
rising into morning sun, rich crema slowly forming. Close-up handheld,
shallow DOF, warm cafe ambience.
制限事項
- 期間上限 15 秒。 より長いナレーションの場合は、複数の呼び出しを繋ぎます。
- ネイティブ 4K なし — 1080p が上限です。
- アスペクト比 — ドキュメント化された 5 つの値のみ。
- オーディオ仕様 — 3~30秒、≤15MB、WAV/MP3 のみ。
- リファレンスメディア上限 5(画像 + ビデオ + 音声の合計)。
- 通過中音声生成(別のオーディオトラックなし)の場合は Seedance 2.0 Pro を使用 — Wan はオーディオを生成するのではなく受け入れます。
終了コード
| コード | 意味 |
|---|---|
| 0 | 成功 |
| 64 | 不正な CLI 引数 |
| 65 | 不正な入力 JSON / スキーマ不一致 |
| 69 | アップストリーム 5xx |
| 75 | 再試行可能:タイムアウト / 429 |
| 77 | サインインしていないか、トークンが拒否されました |
完全なリファレンス:docs.runcomfy.com/cli/troubleshooting。
動作方法
このスキルは runcomfy run wan-ai/wan-2-7/text-to-video をスキーマに一致する JSON 本文で呼び出します。CLI は https://model-api.runcomfy.net/v1/models/wan-ai/wan-2-7/text-to-video に POST し、リクエストをポーリングし、結果を取得し、任意の .runcomfy.net/.runcomfy.com URL を --output-dir にダウンロードします。Ctrl-C は終了前にリモートリクエストをキャンセルします。
セキュリティとプライバシー
- トークンストレージ:
runcomfy loginは API トークンを~/.config/runcomfy/token.jsonに mode 0600(所有者のみ読み取り/書き込み)で書き込みます。CI / コンテナで完全にファイルをバイパスするにはRUNCOMFY_TOKEN環境変数を設定します。 - 入力境界: ユーザープロンプトは
--input経由で JSON 文字列として CLI に渡されます。CLI はプロンプトをシェル展開しません。JSON 本文を HTTPS 経由で Model API に直接送信します。プロンプト内容からのシェルインジェクション面がありません。 - サードパーティコンテンツ: 渡した画像 / マスク / ビデオ URL は、CLI がマシンで取得するのではなく RunComfy モデルサーバーで取得されます。外部 URL を信頼されていないものとして扱います。画像ベースのプロンプトインジェクションは、任意の画像編集/ビデオ編集モデルの既知リスクです。
- アウトバウンドエンドポイント:
model-api.runcomfy.net(リクエスト送信)と*.runcomfy.net/*.runcomfy.com(生成出力のダウンロードホワイトリスト)のみ。テレメトリーなし、コールバックなし。 - 生成ファイルサイズ上限: CLI は単一ダウンロードが 2 GiB を超える場合、悪意のあるまたは暴走したモデル出力からのディスク満杯を防ぐために中止します。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- agentspace-so
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。