kling-3-prompting

概要

Kling 3.0 は統合マルチモーダルビデオモデルです。キーワードリストではなく、シネマティック指向を理解します。監督のようにプロンプトを書いてください — 時間の経過とともに視聴者が見るもの、聞くもの、感じるものを記述します。

中核的な転換: 記述 → 指向。「画像を記述する」ではなく「シーンを演出する」と考えてください。

インタラクティブビルダーワークフロー

実行時に、AskUserQuestion を使用してユーザーを以下のステップをガイドしてください:

digraph builder {
  "1. Generation mode?" [shape=diamond];
  "Text-to-Video" [shape=box];
  "Image-to-Video" [shape=box];
  "Multi-Shot Sequence" [shape=box];
  "Keyframe Transition" [shape=box];
  "2. Gather scene details" [shape=box];
  "3. Assemble prompt" [shape=box];
  "4. Present & refine" [shape=box];

  "1. Generation mode?" -> "Text-to-Video";
  "1. Generation mode?" -> "Image-to-Video";
  "1. Generation mode?" -> "Multi-Shot Sequence";
  "1. Generation mode?" -> "Keyframe Transition";
  "Text-to-Video" -> "2. Gather scene details";
  "Image-to-Video" -> "2. Gather scene details";
  "Multi-Shot Sequence" -> "2. Gather scene details";
  "Keyframe Transition" -> "2. Gather scene details";
  "2. Gather scene details" -> "3. Assemble prompt";
  "3. Assemble prompt" -> "4. Present & refine";
}

ステップ 1: 生成モードの判定

ユーザーにどのモードかを質問してください:

Text-to-Video — ゼロからプロンプトを作成
Image-to-Video — 参照画像をアニメーション化
Multi-Shot Sequence — 2～6ショットのストーリーボード(最大15秒)
Keyframe Transition — 開始フレーム → 終了フレーム(補間モーション付き)

ステップ 2: シーン詳細を集める

各要素について質問してください(モードに応じて調整):

要素	質問	重要な理由
被写体	焦点は何/誰?具体的な外見の詳細?	一貫性の基準 — 識別特性を早期に定義
アクション	何が起きる?タイムライン(最初 → その次 → 最後)を説明	Kling 3.0は15秒の弧にわたるシーケンシャルアクションに優れている
環境	どこ?具体的に(「通り」ではなく「狭い東京路地、排気口からの蒸気」)	シーンを物理的に根付かせる
カメラ	ショットタイプとモーション?(下記のカメラリファレンス参照)	シネマティック言語はより優れた結果を生む
ライティング	何がライト源?具体的に名前を付ける	「明滅するネオン」が「ドラマティックな照明」を上回る
ムード/エモーション	視聴者は何を感じるべき?	カラーグレード、ペーシング、音楽を駆動
オーディオ	ダイアログ?周囲音?音楽?	Kling 3.0はネイティブオーディオ + リップシンクを生成
期間	どのくらい?(3～15秒)	長い = 時間をかけて進行を記述
アスペクト比	16:9 / 9:16 / 1:1 / 21:9?	16:9シネマティック、9:16ソーシャル、21:9ウルトラワイド

Image-to-Video: シーンがどのように画像から進化するかに焦点を当ててください — モーション、カメラモーション、環境の変化。モデルはソースからのアイデンティティ/レイアウトを保持します。

キーフレーム: 開始フレームと終了フレームの記述を求めてください。フレームは色、スタイル、ライティングで一致すべきです。プロンプトは控えめに — Kling はモーションをよく推測します。

マルチショット: 各ショットを独立して定義し、独自のフレーミング、被写体、アクション、期間を持たせます。ショットを明示的にラベル付けしてください。

ステップ 3: プロンプトを組み立てる

マスターフォーミュラを使用してください:

[シーン/環境] + [被写体と外見] + [アクションタイムライン] + [カメラモーション] + [オーディオと雰囲気] + [技術仕様]

執筆ルール:

シネマティックモーション動詞を使用: ドリー、プッシュイン、ホイップパン、クラッシュズーム、ラックフォーカス、トラッキングショット — 「動く」や「行く」ではなく
実際のライト源に名前を付ける: ネオン看板、ろうそくの光、ゴールデンアワー、LEDパネル — 「ドラマティックな照明」ではなく
信頼性のためにテクスチャを含める: グレイン、レンズフレア、結露、生地の光沢、煙、汗
時間的流れを記述: 最初 → 中盤 → 最後
ショットあたり1～3の豊かな文に保つ(長さより特異性)
ダイアログの場合: キャラクターラベルを使用、声のトーン/感情を割り当て、移行表現を使用(「すぐに」「ポーズ」)

ステップ 4: プレゼンテーションと精緻化

組み立てたプロンプトを提示します。以下から選べるかどうかを質問してください:

任意の要素を調整
ネガティブプロンプトを追加
バリエーションを生成(異なる期間、異なるカメラ、異なるムード)

クイックリファレンス

カメラモーション

モーション	効果	サンプルフレーズ
ドリープッシュイン	親密さ/緊張を構築	"slow dolly push-in toward her face"
ドリーズーム	眩暈/ドラマティックな暴露	"dolly zoom creating disorienting depth shift"
トラッキングショット	被写体に続く	"camera tracks alongside as she walks"
ホイップパン	エネルギー/驚き	"whip-pan to reveal the door"
クラッシュズーム	ショック/強調	"sudden crash zoom on the object"
ラックフォーカス	注意をシフト	"rack focus from foreground hand to background figure"
ハンドヘルド/ショルダーカム	ロー/ドキュメンタリー感	"handheld shoulder-cam with subtle sway"
スタティック三脚	構成/観察	"locked-off static tripod, wide shot"
FPVドローン	ハイエネルギー没入	"dynamic FPV drone shot chasing through corridor"
ロー角トラッキング	ヒーロー/圧倒的	"low-angle tracking shot, subject towers above"
トラック左/右	ラテラルな暴露	"camera trucks right revealing the cityscape"
チルトアップ/ダウン	垂直暴露	"slow tilt up from boots to face"

レンズとフィルムストック

フレーズ	効果
"Shot on 35mm film"	暖かいグレイン、有機的なテクスチャ
"Macro 85mm lens"	タイトな詳細、浅い被写界深度
"Wide-angle steadicam"	スムーズ、没入的、空間的
"Handheld camcorder"	ロウVHS エネルギー、ノスタルジック
"Anamorphic lens flare"	シネマティック水平ストリーク

ライティング

形容詞ではなく特定の源を使用:

"Golden hour sun cutting through dusty warehouse windows"
"Flickering neon casting magenta/cyan across wet pavement"
"Single bare bulb swinging, casting moving shadows"
"Cool blue LED panels reflecting off glass surfaces"
"Candlelight warming skin tones, deep shadows beyond"

カラー & グレード

"Desaturated teal grade, crushed blacks"
"Amber nightclub strobe cutting through smoke"
"Cool blue haze filling the corridor"
"Magenta neon reflecting off wet asphalt"
"Overexposed highlights, blown-out whites"

マルチキャラクターダイアログ

ルール	すべき	すべきでない
キャラクターに名前を付ける	`[Character A: Silver-haired CEO]`	`[Man] says...`
アクションに根付かせる	Agent slams table. [Agent, angrily]: "Where is it?"	ビジュアルアクションなしのダイアログだけ
声のトーンを割り当てる	`[CEO, deep authoritative gravelly voice]`	一般的な「says」
タイミングを制御	"Immediately," "Pause," "After a beat"	遷移なしの連続ダイアログ

マルチショット構造

Shot 1 (0-5s): [Wide establishing shot description]
Shot 2 (5-10s): [Medium/close-up with action progression]
Shot 3 (10-15s): [Resolution/reaction with camera payoff]

Atmosphere: [Overall mood, color grade]
Audio: [Sound design, music, dialogue]

すべてのショットにラベルを付けます。期間を割り当てます。ショットごとにフレーミング + 被写体 + モーションを記述します。

開始フレームと終了フレームのヒント

フレームはカラーパレット、スタイル、ライティングで一致すべき
アイデンティカルな開始/終了フレーム = シームレスループ
プロンプトは控えめに — Kling はフレーム間のモーションをよく推測
シンプルなカメラ指示: ズームイン/アウト、パンレフト/ライト、チルトアップ/ダウン
動的トランジションには5秒、複雑な変形には10秒
開始フレームのアスペクト比がクリップ全体を駆動

ネガティブプロンプト

一般的なAIのデフォルトを防ぐために使用:

smiling, laughing, cartoonish, bright saturated colors, low resolution,
morphing, blurry text, disfigured hands, extra fingers, static pose,
frozen expression, stock photo aesthetic

シーンに基づいてカスタマイズ — 意図と競合する項目を削除します。

弱い → 強い

要素	弱い	強い
カメラ	"Camera follows person"	"Handheld shoulder-cam drifts behind subject with subtle sway"
被写体	"A woman walking"	"Woman in red dress, heels clicking wet cobblestone"
環境	"In a city"	"Narrow Tokyo alley, steam from grates, glowing vending machines"
ライティング	"Dramatic lighting"	"Flickering neon casting magenta/cyan across wet pavement"
テクスチャ	"It looks realistic"	"Rain beading on leather jacket, condensation on glass, visible breath"
モーション	"She walks away"	"She turns slowly, hair catches light, disappears around corner"

一般的な間違い

間違い	修正
シーン指向ではなくキーワードリスト	ショットを演出するように書く: 被写体 + アクション + カメラ + 環境
あいまいなモーション(「動く」「行く」)	シネマティック動詞を使用: ドリー、トラック、ホイップパン、クラッシュズーム
一般的なライティング(「ドラマティック」)	ソースに名前を付ける: ネオン、キャンドル、ゴールデンアワー、LEDパネル
長すぎるプロンプト	ショットあたり1～3の豊かな文;長さより特異性
時間的進行がない	ショットの最初 → 中盤 → 最後を記述
一致しないキーフレーム	開始/終了フレーム間の色、ライティング、スタイルを一致させる
アトリビューションなしのダイアログ	すべてのスピーカーに名前、トーン、感情でラベル付けします
マルチショットを1つの段落に詰め込む	各ショットを分離してラベル付けし、期間を割り当てます

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

SKILL.md 本文

概要