kling-3-0
RunComfy上でKling 3.0を使った動画生成を行うスキルです。Kling 3.0(Kling V3.0)は快手(Kuaishou Technology)の第3世代マルチショット動画モデルで、ネイティブ同期音声とショット間の一貫したキャラクター同一性を備えており、Standard・Pro・4Kの3レンダリングティアとテキスト→動画・画像→動画の2モードを合わせた全6エンドポイントに対応します。「kling」「kling 3.0」「kling pro」「kling 4k」「kling text to video」「kling image to video」などのキーワード、またはKling 3.0での動画生成・アニメーション化の明示的なリクエストをトリガーとして、ローカルのRunComfy CLIを通じて`kling/kling-3.0/<tier>/<mode>`を実行します。
description の原文を見る
> Kling 3.0 video generation on RunComfy. Kling 3.0 (also called Kling V3.0) is Kuaishou Technology's third-generation multi-shot video model with native synchronized audio and consistent character identity across shots. This skill covers all six Kling 3.0 endpoints, spanning three rendering tiers (Standard, Pro, 4K) and two modes (text-to-video, image-to-video). Calls runcomfy run kling/kling-3.0/<tier>/<mode> through the local RunComfy CLI. Triggers on "kling", "kling 3.0", "kling v3", "kling pro", "kling 4k", "kling text to video", "kling image to video", or any explicit ask to generate or animate with Kling 3.0.
SKILL.md 本文
Kling 3.0 - Pro Pack on RunComfy
runcomfy.com · docs · GitHub
Kling 3.0 は Kuaishou Technology の第 3 世代シネマティックビデオモデルです。このスキルは RunComfy 上のすべての 6 つの Kling 3.0 レンダリングエンドポイント、つまり 3 つの品質ティア(Standard、Pro、4K)と 2 つのモード(text-to-video と image-to-video)をカバーしています。
Kling 3.0 について
Kling 3.0 は Kling ビデオモデルの V3 世代です。同期された ネイティブオーディオ、ショット全体にわたる一貫したキャラクター アイデンティティ、および物理学に基づいたモーションを備えたマルチショット シネマティック ビデオを生成します。Kling 2.x と比較して、Kling 3.0 はより長いクリップ(最大 15 秒)、4K ティアでのネイティブ 4K 出力、および 1 つの Kling 3.0 生成に複数の異なるシーンを制御された遷移で含められる統一されたマルチプロンプト セグメント システムをサポートしています。
Kling 3.0 は RunComfy 上で 3 つのレンダリングティアで提供され、各ティアは text-to-video または image-to-video として利用できます:
- Standard - 最も安価なティア、最大 1080p 出力。Kling 3.0 Standard は高速な反復、プレビュー、A/B バリアント、ソーシャル ショート用に使用します。
- Pro - 1080p での最高忠実度。Kling V3.0 Pro はモーションのリアリティとアイデンティティ保持が最も重要なヒーロー品質 1080p クリップに使用します。
- 4K - ネイティブ 3840x2160 出力。Kling V3.0 4K は高解像度ブランド フィルム、大画面シネマティック シーケンス、ネイティブ解像度で完成したマスター用に使用します。
3 つのティアはすべて同じ Kling 3.0 マルチショット アーキテクチャを共有しています。ティアは解像度の上限、モーション忠実度のバジェット、および価格が異なります。
6 つの Kling 3.0 エンドポイント
各エンドポイントは 1 つの(ティア、モード)ペアに対応します。6 つのエンドポイントはすべて同じ Kling 3.0 ベースモデルを共有します。
| エンドポイント | アンカー | 解像度 | レート(音声なし) | レート(音声あり) |
|---|---|---|---|---|
kling/kling-3.0/standard/text-to-video | Kling 3.0 Standard t2v | 最大 1080p | $0.084/s | $0.126/s |
kling/kling-3.0/standard/image-to-video | Kling 3.0 Standard Image to Video | 最大 1080p | $0.084/s | $0.126/s |
kling/kling-3.0/pro/text-to-video | Kling V3.0 Pro Text-to-Video | 1080p | $0.112/s | $0.168/s |
kling/kling-3.0/pro/image-to-video | Kling V3.0 Pro Image-to-Video | 1080p | $0.112/s | $0.168/s |
kling/kling-3.0/4k/text-to-video | Kling V3.0 4K Text-to-Video | 3840x2160 | $0.42/s 固定 | $0.42/s 固定 |
kling/kling-3.0/4k/image-to-video | Kling V3.0 4K Image-to-Video | 3840x2160 | $0.42/s 固定 | $0.42/s 固定 |
4K ティアは音声の有無に関わらず同じ価格です。Standard ティアと Pro ティアは音声が有効な場合、秒単位で約 50% 多く請求されます。
どの Kling 3.0 ティアを選ぶべきか
出力がパイプライン内で担う役割に基づいて Kling 3.0 ティアを選択します。
- ドラフト、プレビュー、ソーシャル ショート、A/B バリアント: Kling 3.0 Standard。最も安価です。ヒーロー ショット以外のすべての用途で品質は問題ありません。
- ヒーロー 1080p クリップ、広告クリエイティブ、高いモーション忠実度のトーキング ヘッド: Kling V3.0 Pro。Standard より約 33% 高価で、同じ解像度での著しく引き締まったモーションとアイデンティティ保持が実現します。
- 4K ブランド フィルム、大画面シネマティック、完成したマスター: Kling V3.0 4K。ネイティブ 3840x2160(アップスケール ステップなし)。固定 $0.42/s で予算立てが予測可能になります。出力が本当に 4K を必要とする場合のみ使用してください。Standard の約 5 倍のコストです。
モードは、ソース イメージを持っているかどうかに基づいて選択します:
- Text-to-Video (t2v): プロンプトのみ、Kling 3.0 がゼロからルックを生成します。新しいシーン、完全に新しい構成、既存の参照がない環境に Kling 3.0 t2v を使用します。
- Image-to-Video (i2v): プロンプト + ソース イメージ、Kling 3.0 がイメージをアニメーション化します。正確な参照(顔、製品、シーン)を出力に残す必要がある場合は Kling 3.0 i2v を使用します。
ユーザーが明示的に Kling 3.0、Kling V3.0、Kling Pro、または Kling 4K を求めた場合は、関係なくこのスキルにルーティングします。
前提条件
- RunComfy CLI:
npm i -g @runcomfy/cli - RunComfy アカウント:
runcomfy loginでブラウザのデバイス コード フローが開きます。 - CI / コンテナ:
RUNCOMFY_TOKEN=<token>を代わりに設定してください。 - i2v エンドポイント用: 公開でアクセス可能なソース イメージ URL(HTTPS、JPEG/PNG/WebP)。
入力スキーマ(6 つの Kling 3.0 エンドポイント全体で共有)
| フィールド | タイプ | 必須 | デフォルト | 備考 |
|---|---|---|---|---|
prompt | string | はい | - | シーン、モーション、カメラ、雰囲気のテキスト説明。マルチセグメント プロンプトは prompt_segments 経由でサポートされ、1 つの Kling 3.0 生成内でシーン遷移が可能です。 |
image_url | string | はい(i2v のみ) | - | Kling 3.0 i2v 用のソース イメージ。HTTPS URL。JPEG/PNG/WebP。 |
tail_image_url | string | いいえ(i2v のみ) | - | Kling 3.0 i2v で制御された開始から終了へのフレーム遷移のためのオプショナル終了イメージ。 |
negative_prompt | string | いいえ | - | Kling 3.0 出力から除外する要素。 |
duration | int | いいえ | 5 | Kling 3.0 生成あたり 3~15 秒。 |
aspect_ratio | enum | いいえ | 16:9 | 16:9、9:16、1:1、4:3、3:4、21:9。 |
cfg_scale | float | いいえ | 0.5 | プロンプト ガイダンスの強度。高いほど = プロンプトへの厳格な準拠。 |
generate_audio | bool | いいえ | false | Kling 3.0 インパス同期オーディオを有効にします。Standard ティアと Pro ティアでコストが追加され、4K では固定料金です。 |
seed | int | いいえ | - | Kling 3.0 バリアント テスト用の再現性。 |
各 Kling 3.0 エンドポイントを呼び出す方法
Kling 3.0 Standard text-to-video(最も安価な 1080p ドラフト):
runcomfy run kling/kling-3.0/standard/text-to-video \
--input '{
"prompt": "<Kling 3.0 プロンプト>",
"duration": 5,
"aspect_ratio": "16:9"
}' \
--output-dir <absolute/path>
Kling 3.0 Standard image-to-video(スチルをアニメーション化):
runcomfy run kling/kling-3.0/standard/image-to-video \
--input '{
"prompt": "<Kling 3.0 i2v のモーション説明>",
"image_url": "https://.../source.jpg",
"duration": 5
}' \
--output-dir <absolute/path>
Kling V3.0 Pro text-to-video(最高 1080p 忠実度):
runcomfy run kling/kling-3.0/pro/text-to-video \
--input '{
"prompt": "<Kling 3.0 Pro プロンプト>",
"duration": 8,
"aspect_ratio": "16:9",
"generate_audio": true
}' \
--output-dir <absolute/path>
Kling V3.0 Pro image-to-video(ソース イメージからのヒーロー アニメーション):
runcomfy run kling/kling-3.0/pro/image-to-video \
--input '{
"prompt": "<Kling V3.0 Pro i2v のモーション説明>",
"image_url": "https://.../subject.jpg",
"duration": 8,
"generate_audio": true
}' \
--output-dir <absolute/path>
Kling V3.0 4K text-to-video(ネイティブ 4K シネマティック):
runcomfy run kling/kling-3.0/4k/text-to-video \
--input '{
"prompt": "<Kling V3.0 4K プロンプト>",
"duration": 10,
"aspect_ratio": "16:9",
"generate_audio": true
}' \
--output-dir <absolute/path>
Kling V3.0 4K image-to-video(参照イメージの 4K アニメーション):
runcomfy run kling/kling-3.0/4k/image-to-video \
--input '{
"prompt": "<Kling V3.0 4K i2v のモーション説明>",
"image_url": "https://.../source-4k.jpg",
"duration": 10,
"generate_audio": true
}' \
--output-dir <absolute/path>
CLI は Kling 3.0 リクエストを送信し、2 秒ごとにポーリングし、結果をフェッチして、任意の *.runcomfy.net / *.runcomfy.com URL を --output-dir にダウンロードします。
Kling 3.0 へのプロンプティング - 効果的な方法
Kling 3.0 は特定のプロンプティング パターンに素朴な散文よりもよく応答します。
モーションとカメラ言語から始めます。 Kling 3.0 は「ワイド ショット、スロー プッシュイン」、「トラッキング ショット、ロー アングル」、「ハンドヘルド フォロー」を実際のディレクティブとして読み取ります。これらを先頭に配置します。
1 つの Kling 3.0 生成でマルチショット。 単一の Kling 3.0 プロンプトはショットのシーケンスを記述できます。番号を付けます: 「Shot 1: 夕暮れのカフェのワイド。Shot 2: バリスタのミディアム クローズアップ。Shot 3: エスプレッソ注ぎの引き。」Kling 3.0 はショット全体でアイデンティティ(顔、衣装、小道具)を保持します。
i2v のアイデンティティ アンカー。 Kling 3.0 i2v を使用する場合は、安定したままであるべき内容を再言及します: 「被写体の顔、ポーズ、衣装を保持します。カメラのみが移動し、背景が変わります。」
制御された終了のための tail_image_url。 Kling 3.0 i2v で、テール イメージを供給して最後のフレームをロックします。Kling 3.0 はソースからテールへのモーションを補間します。
ワンパス ダイアログ用の generate_audio: true。 Kling 3.0 が音声で何を生成すべきかを記述します: 「温かみのあるフレンドリーなトーン、英語のボイスオーバー」または「都市の雰囲気、遠い交通音、ダイアログなし。」音声は Standard / Pro でコストが追加され、4K では固定です。
cfg_scale チューニング。 デフォルト 0.5 はほとんどの Kling 3.0 プロンプトで機能します。スタイリングされた出力に対してプロンプト準拠を厳格にするために 0.7~0.9 に上げます。プロンプトが大ざっぱな場合のナチュラル モーション用に 0.3~0.4 に下げます。
アンチパターン:
- 1 つの Kling 3.0 プロンプト内で矛盾するスタイル キューの競合 -> 簡略化し、1~2 つのスタイル アンカーを選択します。
- 1 つの Kling 3.0 呼び出しで 15 秒以上を要求 -> 422 エラー。スクリプトをセグメント化して接ぎ合わせます。
- サポート セット外のアスペクト比 -> 拒否されます。
- Kling V3.0 4K で、積極的なマルチショット ストーリー + 15 秒 + ダイアログ + 6 カット を要求 -> Kling 3.0 は配信しますが、コストは生成あたり約 $6.30 に上がります。Standard で最初に検証します。
Kling 3.0 の優れた点
| ユース ケース | ベスト Kling 3.0 エンドポイント |
|---|---|
| 一貫したキャラクターを持つシネマティック 1080p ブランド ストーリー | Kling V3.0 Pro (t2v または i2v) |
| ネイティブ 4K ヒーロー フィルムと大画面シネマティック | Kling V3.0 4K (t2v または i2v) |
| 安価な反復、ソーシャル ファースト ショート、A/B バリアント | Kling 3.0 Standard t2v |
| ブランド アセット、製品写真、キャラクター アート のアニメーション | Kling 3.0 Standard i2v または Kling V3.0 Pro i2v |
| 1 パスで同期されたダイアログを含むマルチショット広告 | generate_audio: true を含む Kling V3.0 Pro |
| ネイティブ オーディオを備えたプレミアム 4K 完成マスター | generate_audio: true を含む Kling V3.0 4K(固定料金) |
サンプル Kling 3.0 プロンプト
Kling 3.0 シネマティック マルチショット(Pro ティア推奨):
ゴールデン アワーに屋上レストランでアニバーサリーを祝う若いアメリカ人カップルのシネマティック マルチショット。Shot 1: ゴールデン アワーの都市スカイラインのワイド。Shot 2: カップルがトースト中のミディアム ツー ショット。Shot 3: 女性のスマイルをタイト、ソフト ボケ、温かみのあるフィル ライト。かすかなアンビエント ストリング ミュージック、優しい風、遠い交通音。
Kling 3.0 i2v(ポートレートをアニメーション化、4K ティア):
ソース イメージからの被写体への穏やかなカメラ ドーリー イン。かすかな呼吸モーション、アイデンティティ安定機能、ソフト ナチュラル ライト、シャロー デプス オブ フィールド。背景: ダスト モートの緩いドリフトを伴う温かみのあるゴールデン アワー グロー。ダイアログなし、アンビエント ルーム トーンのみ。
Kling 3.0 バーティカル ショート(Standard ティア、9:16):
9:16 バーティカル。黒いエプロンのバリスタが、朝日に立ち上る湯気の中で、単一のエスプレッソ ショットを引き、リッチなクレマが徐々に形成されます。クローズアップ ハンドヘルド、シャロー デプス オブ フィールド、温かみのあるカフェの雰囲気とスチーム ワンドのシュー音。
Kling 3.0 FAQ
Kling 3.0 クリップの最大期間はどのくらいですか? 3 つのティアすべてで生成あたり 15 秒。より長いナラティブの場合は、スクリプトを複数の Kling 3.0 呼び出しにセグメント化して接ぎ合わせます。
Kling V3.0 4K は Standard と Pro と比較して、どのように価格設定されていますか? Kling V3.0 4K は、音声が有効かどうかに関わらず、秒単位で固定 $0.42 です。Standard は音声なしで $0.084/s(最も安価)です。Pro は音声なしで $0.112/s です。4K ティアは解像度アップグレードで Standard の約 5 倍のコストがかかります。
Kling 3.0 は単一の生成でマルチショットをサポートしていますか? はい。すべての Kling 3.0 エンドポイントはマルチセグメント プロンプトを受け入れます。ショットに番号を付け(「Shot 1:」、「Shot 2:」など)、Kling 3.0 はショット全体でキャラクター アイデンティティを保持します。
Kling 3.0 はオーディオを生成できますか? はい。generate_audio: true を設定します。Kling 3.0 は同じ生成パスで同期されたダイアログ、アンビエント サウンド、音楽を生成します。4K では価格は秒単位で固定で $0.42 のままです。Standard / Pro では、音声ありのレートは約 50% 上がります。
Kling 3.0 はどのアスペクト比をサポートしていますか? 16:9、9:16、1:1、4:3、3:4、21:9。4K ティアは 21:9 をワイド シネマ クロップとしてネイティブ 3840x2160 でレンダリングします。
Kling 3.0 i2v はテール イメージをサポートしていますか? はい。tail_image_url は最後のフレームをロックします。Kling 3.0 はソースからテールへのモーションを補間します。
Kling 3.0 は Kling 2.x とどのように異なりますか? Kling 3.0 はより強いマルチショット アイデンティティ保持、より長い最大期間(2.x フラッグシップで 10 秒 vs 15 秒)、4K ティアでのネイティブ 4K、すべてのティアにわたる統一されたマルチプロンプト セグメント入力を持ちます。
制限事項
- コールあたりの期間上限 15 秒 すべての Kling 3.0 ティア上。
- 1 つの Kling 3.0 4K 生成での最大 6 連続ショット。
- i2v には公開でアクセス可能な HTTPS イメージ URL が必要です。 ローカル ファイルはサポートされていません。
- アスペクト比は記述された 6 つに固定されています。 他の比率はクロップされるか拒否されます。
- 4K 出力ファイルは大きいです。 Kling V3.0 4K バッチ実行前にディスクと帯域幅を計画します。
終了コード
runcomfy CLI は sysexits スタイル コードを使用します:
| コード | 意味 |
|---|---|
| 0 | Kling 3.0 生成成功 |
| 64 | 不正な CLI 引数 |
| 65 | Kling 3.0 の不正な入力 JSON / スキーマ ミスマッチ |
| 69 | アップストリーム 5xx |
| 75 | 再試行可能: タイムアウト / 429 |
| 77 | サインインされていないか、トークンが拒否されました |
完全なリファレンス: docs.runcomfy.com/cli/troubleshooting。
動作の仕組み
- スキルはユーザーのティア(Standard / Pro / 4K)とモード(t2v / i2v)インテントに基づいて、6 つの Kling 3.0 エンドポイントのいずれかを選択します。
- JSON 本文をスキーマと一致させて
runcomfy run kling/kling-3.0/<tier>/<mode>を呼び出します。 - CLI はユーザーのベアラー トークンを使用して RunComfy Model API に POST します。
- Model API は
request_idを返します。CLI は Kling 3.0 生成が完了するまで 2 秒ごとにポーリングします。 - ターミナル ステータスで、CLI は Kling 3.0 結果をフェッチして、任意の
.runcomfy.net/.runcomfy.comURL を--output-dirにダウンロードします。 Ctrl-Cは請求前にインフライト Kling 3.0 リクエストをキャンセルします。
セキュリティとプライバシー
- トークン ストレージ:
runcomfy loginは API トークンを~/.config/runcomfy/token.jsonにモード 0600 で書き込みます。CI / コンテナではRUNCOMFY_TOKEN環境変数を設定します。 - 入力境界: Kling 3.0 プロンプトは
--input経由で JSON として渡されます。CLI はシェル展開されません。シェル インジェクション サーフェスはありません。 - サード パーティ コンテンツ: 渡すイメージ URL は RunComfy サーバーによってフェッチされ、マシン上の CLI によってはフェッチされません。外部 URL を信頼されていないものとして扱います。イメージベースのプロンプト インジェクションは、イメージ入力を受け入れるビデオ モデルの既知のリスクです。
- アウトバウンド エンドポイント:
model-api.runcomfy.netのみ(リクエスト送信)と*.runcomfy.net/*.runcomfy.com(ダウンロード ホワイトリスト)。 - 生成ファイル サイズ キャップ: CLI は 2 GiB を超える単一ダウンロードをすべて中止して、暴走した Kling 3.0 4K 出力によるディスク満杯を防ぎます。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- agentspace-so
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。