comfyui-video-pipeline
ComfyUI を使用して Wan 2.2、FramePack、AnimateDiff による動画生成を行います。画像から動画、テキストから動画、トーキングヘッド、モーション制御アニメーションに対応しています。キャラクター画像やテキストの説明文から動画コンテンツを作成したい場合に使用してください。
description の原文を見る
Generate videos using ComfyUI with Wan 2.2, FramePack, or AnimateDiff. Handles image-to-video, text-to-video, talking heads, and motion-controlled animation. Use when creating any video content from character images or text descriptions.
SKILL.md 本文
ComfyUI Video Pipeline
3つのエンジン間でビデオ生成をオーケストレーションし、要件と利用可能なリソースに基づいて最適なものを選択します。
エンジン選択
VIDEO REQUEST
|
|-- 映画レベルの品質が必要?
| |-- Yes + 24GB+ VRAM → Wan 2.2 MoE 14B
| |-- Yes + 8GB VRAM → Wan 2.2 1.3B
|
|-- 長いビデオが必要?(>10秒)
| |-- Yes → FramePack(6GBで60秒)
|
|-- 高速なイテレーションが必要?
| |-- Yes → AnimateDiff Lightning(4-8ステップ)
|
|-- カメラ/モーション制御が必要?
| |-- Yes → AnimateDiff V3 + Motion LoRAs
|
|-- 最初と最後のフレーム制御が必要?
| |-- Yes → Wan 2.2 MoE(排他的機能)
|
|-- デフォルト → Wan 2.2(最高の汎用品質)
パイプライン 1: Wan 2.2 MoE(最高品質)
Image-to-Video
前提条件:
wan2.1_i2v_720p_14b_bf16.safetensorsをmodels/diffusion_models/に配置umt5_xxl_fp8_e4m3fn_scaled.safetensorsをmodels/clip/に配置open_clip_vit_h_14.safetensorsをmodels/clip_vision/に配置wan_2.1_vae.safetensorsをmodels/vae/に配置
設定:
| パラメータ | 値 | 注記 |
|---|---|---|
| 解像度 | 1280x720(横)または 720x1280(縦) | ネイティブトレーニング解像度 |
| フレーム | 81(16fpsで約5秒) | 4の倍数 + 1 |
| ステップ | 30-50 | 高いほど品質が良い |
| CFG | 5-7 | |
| サンプラー | uni_pc | Wan推奨 |
| スケジューラー | normal |
フレームカウントガイド:
| 再生時間 | フレーム数(16fps) |
|---|---|
| 1秒 | 17 |
| 3秒 | 49 |
| 5秒 | 81 |
| 10秒 | 161 |
VRAM最適化:
- FP8量子化:VRAMを半分に削減し、品質低下は最小限
- SageAttention:高速なアテンション計算
- OOMの場合はフレーム数を削減
Text-to-Video
I2Vと同じですが、wan2.1_t2v_14b_bf16.safetensors と EmptySD3LatentImage を使用し、画像条件付けの代わりに使用します。
最初と最後のフレーム制御(Wan 2.2 排他機能)
Wan 2.2 MoEは最初と最後のフレームの両方を指定でき、正確なビデオプランニングが可能:
- 一貫したキャラクターで2つのヒーロー画像を生成
- 最初のものをスタートフレーム、2番目のものをエンドフレームとして使用
- Wanは両者間のモーションを補間
パイプライン 2: FramePack(長いビデオ、低VRAM)
主要イノベーション
VRAMの使用量はビデオの長さに関係なく、わずか6GB VRAMで60秒のビデオを30fpsで生成します。
動作原理:
- 動的コンテキスト圧縮:キーフレーム用に1536マーカー、トランジション用に192マーカー
- 双方向メモリと逆方向生成でドリフトを防止
- コンテキストウィンドウを使用したフレームバイフレーム生成
設定
| パラメータ | 値 | 注記 |
|---|---|---|
| 解像度 | 640x384 から 1280x720 | VRAMに依存 |
| 再生時間 | 最大60秒 | VRAM不変 |
| 品質 | 高(Wanと同等) | 同じベースモデルを使用 |
使用する場合
- 10秒を超えるビデオ
- VRAM容量が限られたシステム(ただしRTX 5090は不要)
- VRAMが並列操作のために必要な場合
- ビデオのバッチ生成
パイプライン 3: AnimateDiff V3(高速、制御可能)
強み
- カメラ制御用のMotion LoRAs(パン、ズーム、チルト、ロール)
- エフェクトLoRAs(シャッター、スモーク、爆発、液体)
- 無限長対応のスライディングコンテキストウィンドウ
- Lightningモデルで非常に高速(4-8ステップ)
設定
| パラメータ | 値(標準) | 値(Lightning) |
|---|---|---|
| モーションモジュール | v3_sd15_mm.ckpt | animatediff_lightning_4step.safetensors |
| ステップ | 20-25 | 4-8 |
| CFG | 7-8 | 1.5-2.0 |
| サンプラー | euler_ancestral | lcm |
| 解像度 | 512x512 | 512x512 |
| コンテキスト長 | 16 | 16 |
| コンテキスト重複 | 4 | 4 |
カメラモーション LoRAs
| LoRA | モーション |
|---|---|
| v2_lora_ZoomIn | カメラがズームイン |
| v2_lora_ZoomOut | カメラがズームアウト |
| v2_lora_PanLeft | カメラが左にパン |
| v2_lora_PanRight | カメラが右にパン |
| v2_lora_TiltUp | カメラが上にチルト |
| v2_lora_TiltDown | カメラが下にチルト |
| v2_lora_RollingClockwise | カメラが時計回りにロール |
ポストプロセッシングパイプライン
ビデオ生成後:
1. フレーム補間(RIFE)
滑らかなモーションのためにフレームカウントを2倍または4倍に:
入力(16fps)→ RIFE 2x → 出力(32fps)
入力(16fps)→ RIFE 4x → 出力(64fps)
rife47 または rife49 モデルを使用します。
2. 顔強化(キャラクター動画の場合)
各フレームにFaceDetailerを適用:
- denoise: 0.3-0.4(画像より低く - 時間的一貫性を保持)
- guide_size: 384(動画の速度最適化)
- detection_model: face_yolov8m.pt
3. デフリッカー(必要な場合)
フレーム間の時間的矛盾を削減します。
4. カラーコレクション
フレーム全体で一貫したカラーグレーディングを保持します。
5. ビデオ結合
VHS Video Combine経由での最終出力:
frame_rate: 16(ネイティブ)または 24/30(補間後)
format: "video/h264-mp4"
crf: 19(高品質)から 23(より小さいファイル)
トーキングヘッドパイプライン
キャラクターダイアログの完全なパイプライン:
1. オーディオ生成 → comfyui-voice-pipeline
2. ベースビデオ生成 → このスキル(Wan I2VまたはAnimateDiff)
- プロンプト:"{character}, talking naturally, slight head movement"
- 再生時間:オーディオの長さに合わせる
3. リップシンク適用 → Wav2LipまたはLatentSync
4. 顔強化 → FaceDetailer + CodeFormer
5. 最終出力 → video-assembly
品質チェックリスト
ビデオを完了とマークする前に:
- キャラクター識別が全フレームで一貫している
- ちらつきや時間的アーティファクトがない
- モーションが自然に見える(ぎこちなくない、凍結していない)
- キャラクター動画の場合、顔強化が適用されている
- フレームレートが滑らか(配信で24+ fps)
- オーディオが同期されている(トーキングヘッドの場合)
- 解像度が配信ターゲットと一致している
参考資料
references/workflows.md- WanとAnimateDiffのワークフロー テンプレートreferences/models.md- ビデオモデルのダウンロードリンクreferences/research-log.md- 最新のビデオ生成の進歩state/inventory.json- 利用可能なビデオモデル
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- mckruz
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/mckruz/comfyui-expert / ライセンス: MIT
関連スキル
nano-banana-2
inference.sh CLIを通じてGoogle Gemini 3.1 Flash Image Preview(Nano Banana 2)で画像を生成します。テキストから画像を生成する機能、画像編集、最大14枚の複数画像入力、Google Searchグラウンディング機能に対応しています。トリガーワード:「nano banana 2」「nanobanana 2」「gemini 3.1 flash image」「gemini 3 1 flash image preview」「google image generation」
octocode-slides
洗練されたマルチファイル形式のHTMLプレゼンテーションを生成します。6段階のフロー(概要 → リサーチ → アウトライン → デザイン → 実装 → レビュー)で構成されています。各スライドは独立したHTMLファイルとなり、iframeで読み込まれます。「スライドを作成してほしい」「プレゼンテーションを作ってほしい」「HTMLスライドを生成してほしい」「デックを構築してほしい」といった依頼や、ノート・ドキュメント・コードを洗練されたプレゼンテーションに変換する際に使用できます。
gpt-image2-ppt
OpenAIのgpt-image-2を使用して、視覚的に優れたPPTスライドを生成します。Spatial Glass、Tech Blue、Editorial Monoなど10種類のキュレーション済みスタイルに対応し、ユーザーが提供したPPTXファイルを模倣するテンプレートクローンモードも搭載しています。HTMLビューアと16:9形式のPPTXファイルを出力します。プレゼンテーション、スライド、ピッチデック、投資家向けPPT、雑誌風PPTの作成依頼などで活用してください。
nano-banana
Nano Banana PRO(Gemini 3 Pro Image)およびNano Banana(Gemini 2.5 Flash Image)を使用したAI画像生成機能です。以下の場合に活用できます:(1)テキストプロンプトからの画像生成、(2)既存画像の編集、(3)インフォグラフィックス、ロゴ、商品写真、ステッカーなどのプロフェッショナルなビジュアルアセット制作、(4)複数画像での人物キャラクターの一貫性保持、(5)正確なテキスト描画を含む画像生成、(6)AI生成ビジュアルが必要なあらゆるタスク。「画像を生成」「画像を作成」「写真を作る」「ロゴをデザイン」「インフォグラフィックスを作成」「AI画像」「nano banana」またはその他の画像生成リクエストをトリガーとして機能します。
oiloil-ui-ux-guide
モダンでクリーンなUI/UXガイダンス・レビュースキルです。新機能や既存システム(Webアプリ)に対して、実行可能なUI/UX改善提案、デザイン原則、デザインレビューチェックリストが必要な場合に活用できます。CRAP(コントラスト・反復・配置・近接)をベースに、タスクファーストなUX、情報設計、フィードバック・システムステータス、一貫性、affordances、エラー防止・復旧、認知負荷を重視します。モダンミニマルスタイル(クリーン・余白・タイポグラフィ主導)を強制し、不要なテキストを削減、アイコンとしての絵文字を禁止し、統一されたアイコンセットから直感的で洗練されたアイコンを推奨します。
axiom-hig-ref
Apple Human Interface Guidelines リファレンス — 色(セマンティックカラー、カスタムカラー、パターン)、背景(マテリアル階層、ダイナミック背景)、タイポグラフィ(標準スタイル、カスタムフォント、Dynamic Type)、SF Symbols(レンダリングモード、色、多言語対応)、ダークモード、アクセシビリティ、プラットフォーム固有の考慮事項を網羅したガイドラインです。