Anthropic Claudeデザイン・クリエイティブ⭐ リポ 0品質スコア 50/100

comfyui-video-pipeline

Name: comfyui-video-pipeline
Author: mckruz

ComfyUI を使用して Wan 2.2、FramePack、AnimateDiff による動画生成を行います。画像から動画、テキストから動画、トーキングヘッド、モーション制御アニメーションに対応しています。キャラクター画像やテキストの説明文から動画コンテンツを作成したい場合に使用してください。

description の原文を見る

Generate videos using ComfyUI with Wan 2.2, FramePack, or AnimateDiff. Handles image-to-video, text-to-video, talking heads, and motion-controlled animation. Use when creating any video content from character images or text descriptions.

SKILL.md 本文

ComfyUI Video Pipeline

3つのエンジン間でビデオ生成をオーケストレーションし、要件と利用可能なリソースに基づいて最適なものを選択します。

エンジン選択

VIDEO REQUEST
    |
    |-- 映画レベルの品質が必要？
    |   |-- Yes + 24GB+ VRAM → Wan 2.2 MoE 14B
    |   |-- Yes + 8GB VRAM → Wan 2.2 1.3B
    |
    |-- 長いビデオが必要？（>10秒）
    |   |-- Yes → FramePack（6GBで60秒）
    |
    |-- 高速なイテレーションが必要？
    |   |-- Yes → AnimateDiff Lightning（4-8ステップ）
    |
    |-- カメラ/モーション制御が必要？
    |   |-- Yes → AnimateDiff V3 + Motion LoRAs
    |
    |-- 最初と最後のフレーム制御が必要？
    |   |-- Yes → Wan 2.2 MoE（排他的機能）
    |
    |-- デフォルト → Wan 2.2（最高の汎用品質）

パイプライン 1: Wan 2.2 MoE（最高品質）

Image-to-Video

前提条件：

wan2.1_i2v_720p_14b_bf16.safetensors を models/diffusion_models/ に配置
umt5_xxl_fp8_e4m3fn_scaled.safetensors を models/clip/ に配置
open_clip_vit_h_14.safetensors を models/clip_vision/ に配置
wan_2.1_vae.safetensors を models/vae/ に配置

設定：

パラメータ	値	注記
解像度	1280x720（横）または 720x1280（縦）	ネイティブトレーニング解像度
フレーム	81（16fpsで約5秒）	4の倍数 + 1
ステップ	30-50	高いほど品質が良い
CFG	5-7
サンプラー	uni_pc	Wan推奨
スケジューラー	normal

フレームカウントガイド：

再生時間	フレーム数（16fps）
1秒	17
3秒	49
5秒	81
10秒	161

VRAM最適化：

FP8量子化：VRAMを半分に削減し、品質低下は最小限
SageAttention：高速なアテンション計算
OOMの場合はフレーム数を削減

Text-to-Video

I2Vと同じですが、wan2.1_t2v_14b_bf16.safetensors と EmptySD3LatentImage を使用し、画像条件付けの代わりに使用します。

最初と最後のフレーム制御（Wan 2.2 排他機能）

Wan 2.2 MoEは最初と最後のフレームの両方を指定でき、正確なビデオプランニングが可能：

一貫したキャラクターで2つのヒーロー画像を生成
最初のものをスタートフレーム、2番目のものをエンドフレームとして使用
Wanは両者間のモーションを補間

パイプライン 2: FramePack（長いビデオ、低VRAM）

主要イノベーション

VRAMの使用量はビデオの長さに関係なく、わずか6GB VRAMで60秒のビデオを30fpsで生成します。

動作原理：

動的コンテキスト圧縮：キーフレーム用に1536マーカー、トランジション用に192マーカー
双方向メモリと逆方向生成でドリフトを防止
コンテキストウィンドウを使用したフレームバイフレーム生成

設定

パラメータ	値	注記
解像度	640x384 から 1280x720	VRAMに依存
再生時間	最大60秒	VRAM不変
品質	高（Wanと同等）	同じベースモデルを使用

使用する場合

10秒を超えるビデオ
VRAM容量が限られたシステム（ただしRTX 5090は不要）
VRAMが並列操作のために必要な場合
ビデオのバッチ生成

パイプライン 3: AnimateDiff V3（高速、制御可能）

強み

カメラ制御用のMotion LoRAs（パン、ズーム、チルト、ロール）
エフェクトLoRAs（シャッター、スモーク、爆発、液体）
無限長対応のスライディングコンテキストウィンドウ
Lightningモデルで非常に高速（4-8ステップ）

設定

パラメータ	値（標準）	値（Lightning）
モーションモジュール	`v3_sd15_mm.ckpt`	`animatediff_lightning_4step.safetensors`
ステップ	20-25	4-8
CFG	7-8	1.5-2.0
サンプラー	euler_ancestral	lcm
解像度	512x512	512x512
コンテキスト長	16	16
コンテキスト重複	4	4

カメラモーション LoRAs

LoRA	モーション
v2_lora_ZoomIn	カメラがズームイン
v2_lora_ZoomOut	カメラがズームアウト
v2_lora_PanLeft	カメラが左にパン
v2_lora_PanRight	カメラが右にパン
v2_lora_TiltUp	カメラが上にチルト
v2_lora_TiltDown	カメラが下にチルト
v2_lora_RollingClockwise	カメラが時計回りにロール

ポストプロセッシングパイプライン

ビデオ生成後：

1. フレーム補間（RIFE）

滑らかなモーションのためにフレームカウントを2倍または4倍に：

入力（16fps）→ RIFE 2x → 出力（32fps）
入力（16fps）→ RIFE 4x → 出力（64fps）

rife47 または rife49 モデルを使用します。

2. 顔強化（キャラクター動画の場合）

各フレームにFaceDetailerを適用：

denoise: 0.3-0.4（画像より低く - 時間的一貫性を保持）
guide_size: 384（動画の速度最適化）
detection_model: face_yolov8m.pt

3. デフリッカー（必要な場合）

フレーム間の時間的矛盾を削減します。

4. カラーコレクション

フレーム全体で一貫したカラーグレーディングを保持します。

5. ビデオ結合

VHS Video Combine経由での最終出力：

frame_rate: 16（ネイティブ）または 24/30（補間後）
format: "video/h264-mp4"
crf: 19（高品質）から 23（より小さいファイル）

トーキングヘッドパイプライン

キャラクターダイアログの完全なパイプライン：

1. オーディオ生成 → comfyui-voice-pipeline
2. ベースビデオ生成 → このスキル（Wan I2VまたはAnimateDiff）
   - プロンプト："{character}, talking naturally, slight head movement"
   - 再生時間：オーディオの長さに合わせる
3. リップシンク適用 → Wav2LipまたはLatentSync
4. 顔強化 → FaceDetailer + CodeFormer
5. 最終出力 → video-assembly

品質チェックリスト

ビデオを完了とマークする前に：

キャラクター識別が全フレームで一貫している
ちらつきや時間的アーティファクトがない
モーションが自然に見える（ぎこちなくない、凍結していない）
キャラクター動画の場合、顔強化が適用されている
フレームレートが滑らか（配信で24+ fps）
オーディオが同期されている（トーキングヘッドの場合）
解像度が配信ターゲットと一致している

参考資料

references/workflows.md - WanとAnimateDiffのワークフローテンプレート
references/models.md - ビデオモデルのダウンロードリンク
references/research-log.md - 最新のビデオ生成の進歩
state/inventory.json - 利用可能なビデオモデル

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: mckruz
リポジトリ: mckruz/comfyui-expert
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/mckruz/comfyui-expert / ライセンス: MIT