Agent Skills by ALSEL
Anthropic Claudeデザイン・クリエイティブ⭐ リポ 0品質スコア 50/100

comfyui-video-pipeline

ComfyUI を使用して Wan 2.2、FramePack、AnimateDiff による動画生成を行います。画像から動画、テキストから動画、トーキングヘッド、モーション制御アニメーションに対応しています。キャラクター画像やテキストの説明文から動画コンテンツを作成したい場合に使用してください。

description の原文を見る

Generate videos using ComfyUI with Wan 2.2, FramePack, or AnimateDiff. Handles image-to-video, text-to-video, talking heads, and motion-controlled animation. Use when creating any video content from character images or text descriptions.

SKILL.md 本文

ComfyUI Video Pipeline

3つのエンジン間でビデオ生成をオーケストレーションし、要件と利用可能なリソースに基づいて最適なものを選択します。

エンジン選択

VIDEO REQUEST
    |
    |-- 映画レベルの品質が必要?
    |   |-- Yes + 24GB+ VRAM → Wan 2.2 MoE 14B
    |   |-- Yes + 8GB VRAM → Wan 2.2 1.3B
    |
    |-- 長いビデオが必要?(>10秒)
    |   |-- Yes → FramePack(6GBで60秒)
    |
    |-- 高速なイテレーションが必要?
    |   |-- Yes → AnimateDiff Lightning(4-8ステップ)
    |
    |-- カメラ/モーション制御が必要?
    |   |-- Yes → AnimateDiff V3 + Motion LoRAs
    |
    |-- 最初と最後のフレーム制御が必要?
    |   |-- Yes → Wan 2.2 MoE(排他的機能)
    |
    |-- デフォルト → Wan 2.2(最高の汎用品質)

パイプライン 1: Wan 2.2 MoE(最高品質)

Image-to-Video

前提条件:

  • wan2.1_i2v_720p_14b_bf16.safetensorsmodels/diffusion_models/ に配置
  • umt5_xxl_fp8_e4m3fn_scaled.safetensorsmodels/clip/ に配置
  • open_clip_vit_h_14.safetensorsmodels/clip_vision/ に配置
  • wan_2.1_vae.safetensorsmodels/vae/ に配置

設定:

パラメータ注記
解像度1280x720(横)または 720x1280(縦)ネイティブトレーニング解像度
フレーム81(16fpsで約5秒)4の倍数 + 1
ステップ30-50高いほど品質が良い
CFG5-7
サンプラーuni_pcWan推奨
スケジューラーnormal

フレームカウントガイド:

再生時間フレーム数(16fps)
1秒17
3秒49
5秒81
10秒161

VRAM最適化:

  • FP8量子化:VRAMを半分に削減し、品質低下は最小限
  • SageAttention:高速なアテンション計算
  • OOMの場合はフレーム数を削減

Text-to-Video

I2Vと同じですが、wan2.1_t2v_14b_bf16.safetensorsEmptySD3LatentImage を使用し、画像条件付けの代わりに使用します。

最初と最後のフレーム制御(Wan 2.2 排他機能)

Wan 2.2 MoEは最初と最後のフレームの両方を指定でき、正確なビデオプランニングが可能:

  1. 一貫したキャラクターで2つのヒーロー画像を生成
  2. 最初のものをスタートフレーム、2番目のものをエンドフレームとして使用
  3. Wanは両者間のモーションを補間

パイプライン 2: FramePack(長いビデオ、低VRAM)

主要イノベーション

VRAMの使用量はビデオの長さに関係なく、わずか6GB VRAMで60秒のビデオを30fpsで生成します。

動作原理:

  • 動的コンテキスト圧縮:キーフレーム用に1536マーカー、トランジション用に192マーカー
  • 双方向メモリと逆方向生成でドリフトを防止
  • コンテキストウィンドウを使用したフレームバイフレーム生成

設定

パラメータ注記
解像度640x384 から 1280x720VRAMに依存
再生時間最大60秒VRAM不変
品質高(Wanと同等)同じベースモデルを使用

使用する場合

  • 10秒を超えるビデオ
  • VRAM容量が限られたシステム(ただしRTX 5090は不要)
  • VRAMが並列操作のために必要な場合
  • ビデオのバッチ生成

パイプライン 3: AnimateDiff V3(高速、制御可能)

強み

  • カメラ制御用のMotion LoRAs(パン、ズーム、チルト、ロール)
  • エフェクトLoRAs(シャッター、スモーク、爆発、液体)
  • 無限長対応のスライディングコンテキストウィンドウ
  • Lightningモデルで非常に高速(4-8ステップ)

設定

パラメータ値(標準)値(Lightning)
モーションモジュールv3_sd15_mm.ckptanimatediff_lightning_4step.safetensors
ステップ20-254-8
CFG7-81.5-2.0
サンプラーeuler_ancestrallcm
解像度512x512512x512
コンテキスト長1616
コンテキスト重複44

カメラモーション LoRAs

LoRAモーション
v2_lora_ZoomInカメラがズームイン
v2_lora_ZoomOutカメラがズームアウト
v2_lora_PanLeftカメラが左にパン
v2_lora_PanRightカメラが右にパン
v2_lora_TiltUpカメラが上にチルト
v2_lora_TiltDownカメラが下にチルト
v2_lora_RollingClockwiseカメラが時計回りにロール

ポストプロセッシングパイプライン

ビデオ生成後:

1. フレーム補間(RIFE)

滑らかなモーションのためにフレームカウントを2倍または4倍に:

入力(16fps)→ RIFE 2x → 出力(32fps)
入力(16fps)→ RIFE 4x → 出力(64fps)

rife47 または rife49 モデルを使用します。

2. 顔強化(キャラクター動画の場合)

各フレームにFaceDetailerを適用:

  • denoise: 0.3-0.4(画像より低く - 時間的一貫性を保持)
  • guide_size: 384(動画の速度最適化)
  • detection_model: face_yolov8m.pt

3. デフリッカー(必要な場合)

フレーム間の時間的矛盾を削減します。

4. カラーコレクション

フレーム全体で一貫したカラーグレーディングを保持します。

5. ビデオ結合

VHS Video Combine経由での最終出力:

frame_rate: 16(ネイティブ)または 24/30(補間後)
format: "video/h264-mp4"
crf: 19(高品質)から 23(より小さいファイル)

トーキングヘッドパイプライン

キャラクターダイアログの完全なパイプライン:

1. オーディオ生成 → comfyui-voice-pipeline
2. ベースビデオ生成 → このスキル(Wan I2VまたはAnimateDiff)
   - プロンプト:"{character}, talking naturally, slight head movement"
   - 再生時間:オーディオの長さに合わせる
3. リップシンク適用 → Wav2LipまたはLatentSync
4. 顔強化 → FaceDetailer + CodeFormer
5. 最終出力 → video-assembly

品質チェックリスト

ビデオを完了とマークする前に:

  • キャラクター識別が全フレームで一貫している
  • ちらつきや時間的アーティファクトがない
  • モーションが自然に見える(ぎこちなくない、凍結していない)
  • キャラクター動画の場合、顔強化が適用されている
  • フレームレートが滑らか(配信で24+ fps)
  • オーディオが同期されている(トーキングヘッドの場合)
  • 解像度が配信ターゲットと一致している

参考資料

  • references/workflows.md - WanとAnimateDiffのワークフロー テンプレート
  • references/models.md - ビデオモデルのダウンロードリンク
  • references/research-log.md - 最新のビデオ生成の進歩
  • state/inventory.json - 利用可能なビデオモデル

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
mckruz
リポジトリ
mckruz/comfyui-expert
ライセンス
MIT
最終更新
不明

Source: https://github.com/mckruz/comfyui-expert / ライセンス: MIT

関連スキル

汎用デザイン・クリエイティブ⭐ リポ 1,739

nano-banana-2

inference.sh CLIを通じてGoogle Gemini 3.1 Flash Image Preview(Nano Banana 2)で画像を生成します。テキストから画像を生成する機能、画像編集、最大14枚の複数画像入力、Google Searchグラウンディング機能に対応しています。トリガーワード:「nano banana 2」「nanobanana 2」「gemini 3.1 flash image」「gemini 3 1 flash image preview」「google image generation」

by openakita
汎用デザイン・クリエイティブ⭐ リポ 815

octocode-slides

洗練されたマルチファイル形式のHTMLプレゼンテーションを生成します。6段階のフロー(概要 → リサーチ → アウトライン → デザイン → 実装 → レビュー)で構成されています。各スライドは独立したHTMLファイルとなり、iframeで読み込まれます。「スライドを作成してほしい」「プレゼンテーションを作ってほしい」「HTMLスライドを生成してほしい」「デックを構築してほしい」といった依頼や、ノート・ドキュメント・コードを洗練されたプレゼンテーションに変換する際に使用できます。

by bgauryy
汎用デザイン・クリエイティブ⭐ リポ 482

gpt-image2-ppt

OpenAIのgpt-image-2を使用して、視覚的に優れたPPTスライドを生成します。Spatial Glass、Tech Blue、Editorial Monoなど10種類のキュレーション済みスタイルに対応し、ユーザーが提供したPPTXファイルを模倣するテンプレートクローンモードも搭載しています。HTMLビューアと16:9形式のPPTXファイルを出力します。プレゼンテーション、スライド、ピッチデック、投資家向けPPT、雑誌風PPTの作成依頼などで活用してください。

by JuneYaooo
Anthropic Claudeデザイン・クリエイティブ⭐ リポ 299

nano-banana

Nano Banana PRO(Gemini 3 Pro Image)およびNano Banana(Gemini 2.5 Flash Image)を使用したAI画像生成機能です。以下の場合に活用できます:(1)テキストプロンプトからの画像生成、(2)既存画像の編集、(3)インフォグラフィックス、ロゴ、商品写真、ステッカーなどのプロフェッショナルなビジュアルアセット制作、(4)複数画像での人物キャラクターの一貫性保持、(5)正確なテキスト描画を含む画像生成、(6)AI生成ビジュアルが必要なあらゆるタスク。「画像を生成」「画像を作成」「写真を作る」「ロゴをデザイン」「インフォグラフィックスを作成」「AI画像」「nano banana」またはその他の画像生成リクエストをトリガーとして機能します。

by majiayu000
Anthropic Claudeデザイン・クリエイティブ⭐ リポ 299

oiloil-ui-ux-guide

モダンでクリーンなUI/UXガイダンス・レビュースキルです。新機能や既存システム(Webアプリ)に対して、実行可能なUI/UX改善提案、デザイン原則、デザインレビューチェックリストが必要な場合に活用できます。CRAP(コントラスト・反復・配置・近接)をベースに、タスクファーストなUX、情報設計、フィードバック・システムステータス、一貫性、affordances、エラー防止・復旧、認知負荷を重視します。モダンミニマルスタイル(クリーン・余白・タイポグラフィ主導)を強制し、不要なテキストを削減、アイコンとしての絵文字を禁止し、統一されたアイコンセットから直感的で洗練されたアイコンを推奨します。

by majiayu000
Anthropic Claudeデザイン・クリエイティブ⭐ リポ 299

axiom-hig-ref

Apple Human Interface Guidelines リファレンス — 色(セマンティックカラー、カスタムカラー、パターン)、背景(マテリアル階層、ダイナミック背景)、タイポグラフィ(標準スタイル、カスタムフォント、Dynamic Type)、SF Symbols(レンダリングモード、色、多言語対応)、ダークモード、アクセシビリティ、プラットフォーム固有の考慮事項を網羅したガイドラインです。

by majiayu000
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: mckruz · mckruz/comfyui-expert · ライセンス: MIT