マルチモーダル LLM パターン

主要なマルチモーダルモデルからビジョン、オーディオ、ビデオ生成機能を統合します。画像解析、ドキュメント理解、リアルタイム音声エージェント、音声テキスト変換、テキスト音声合成、AI ビデオ生成(Kling v3、Sora 2、Veo 3.1 std/lite/fast ティア、Runway Gen-4.5 via gen4_turbo)に対応します。

カノニカルモデル ID(yonatan-hq/platform/apps/api/app/config.py に固定):

プロバイダーモデル ID
Anthropic claude-opus-4-7(最新)、claude-opus-4-6、claude-sonnet-4-6、claude-haiku-4-5-20251001
OpenAI gpt-5.2(現在のフラッグシップ)
Google gemini-3.1-pro-preview(フラッグシップ)、gemini-3.1-flash-lite-preview(コスト効率)
Veo veo-3.1-generate-preview / veo-3.1-lite-generate-preview / veo-3.1-fast-generate-preview
Kling kling-v3(Kling API の model_name フィールド)
Runway gen4_turbo(プロダクトラベル: Gen-4.5)

プロバイダー	モデル ID
Anthropic	`claude-opus-4-7`(最新)、`claude-opus-4-6`、`claude-sonnet-4-6`、`claude-haiku-4-5-20251001`
OpenAI	`gpt-5.2`(現在のフラッグシップ)
Google	`gemini-3.1-pro-preview`(フラッグシップ)、`gemini-3.1-flash-lite-preview`(コスト効率)
Veo	`veo-3.1-generate-preview` / `veo-3.1-lite-generate-preview` / `veo-3.1-fast-generate-preview`
Kling	`kling-v3`(Kling API の model_name フィールド)
Runway	`gen4_turbo`(プロダクトラベル: Gen-4.5)

クイックリファレンス

カテゴリ	ルール	インパクト	使用時期
ビジョン: 画像解析	1	高	画像キャプション、VQA、マルチ画像比較、物体検出
ビジョン: ドキュメント理解	1	高	OCR、チャート/図解析析、PDF 処理、テーブル抽出
ビジョン: モデル選択	1	中	プロバイダー選択、コスト最適化、画像サイズ制限
オーディオ: 音声テキスト変換	1	高	文字起こし、スピーカーダイアライゼーション、長形式音声
オーディオ: テキスト音声合成	1	中	音声合成、表現力豊かな TTS、マルチスピーカー会話
オーディオ: モデル選択	1	中	リアルタイム音声エージェント、プロバイダー比較、価格
ビデオ: モデル選択	1	高	ビデオ生成プロバイダー選択(Kling、Sora、Veo、Runway)
ビデオ: API パターン	1	高	非同期タスクポーリング、SDK 統合、webhook コールバック
ビデオ: マルチショット	1	高	ストーリーボード、キャラクター要素、シーン一貫性

合計: 3 カテゴリ(ビジョン、オーディオ、ビデオ生成)に 9 ルール

ビジョン: 画像解析

マルチモーダル LLM に画像を送信してキャプション、ビジュアル QA、物体検出を実行します。常に max_tokens を設定し、エンコーディング前に画像をリサイズしてください。

ルール	ファイル	キーパターン
画像解析	`rules/vision-image-analysis.md`	Base64 エンコーディング、マルチ画像、バウンディングボックス

ビジョン: ドキュメント理解

ビジョンモデルを使用してドキュメント、チャート、PDF から構造化データを抽出します。

ルール	ファイル	キーパターン
ドキュメントビジョン	`rules/vision-document.md`	PDF ページ範囲、詳細度レベル、OCR 戦略

ビジョン: モデル選択

精度、コスト、コンテキストウィンドウのニーズに基づいて適切なビジョンプロバイダーを選択します。

ルール	ファイル	キーパターン
ビジョンモデル	`rules/vision-models.md`	プロバイダー比較、トークンコスト、画像制限

オーディオ: 音声テキスト変換

スピーカーダイアライゼーション、タイムスタンプ、センチメント分析を含むテキストへのオーディオ変換。

ルール	ファイル	キーパターン
音声テキスト変換	`rules/audio-speech-to-text.md`	Gemini 長形式、GPT-4o-Transcribe、AssemblyAI 機能

オーディオ: テキスト音声合成

音声選択と表現力豊かなキューを備えたテキストからの自然な音声生成。

ルール	ファイル	キーパターン
テキスト音声合成	`rules/audio-text-to-speech.md`	Gemini TTS、音声設定、音響キュー

オーディオ: モデル選択

リアルタイム、文字起こし、または TTS ユースケース向けの適切なオーディオ/音声プロバイダーを選択します。

ルール	ファイル	キーパターン
オーディオモデル	`rules/audio-models.md`	リアルタイム音声比較、STT ベンチマーク、価格

ビデオ: モデル選択

ユースケース、長さ、予算に基づいて適切なビデオ生成プロバイダーを選択します。

ルール	ファイル	キーパターン
ビデオモデル	`rules/video-generation-models.md`	Kling vs Sora vs Veo vs Runway、価格、機能

ビデオ: API パターン

適切な非同期ポーリング、SDK、webhook コールバックを使用してビデオ生成 API を統合します。

ルール	ファイル	キーパターン
API 統合	`rules/video-generation-patterns.md`	Kling REST、fal.ai SDK、Vercel AI SDK、タスクポーリング

ビデオ: マルチショット

ストーリーボードとキャラクター要素を使用して、一貫したキャラクターを持つマルチシーンビデオを生成します。

ルール	ファイル	キーパターン
マルチショット	`rules/video-multi-shot.md`	Kling v3 キャラクター要素、6 ショットストーリーボード、アイデンティティバインディング

主要な判断基準

判断基準	推奨事項
高精度ビジョン	`claude-opus-4-7`(2,576 px、Opus 4.6 の 3 倍)または `gpt-5.2`
長いドキュメント	`gemini-3.1-pro-preview`(1M+ コンテキスト)
コスト効率的なビジョン	`gemini-3.1-flash-lite-preview`(Gemini 2.5 Flash を置き換え、2026 年 10 月廃止予定)
ビデオ解析	`gemini-3.1-pro-preview`(ネイティブビデオ、2.5 Pro を上位互換)
音声アシスタント	Grok 4.20 上の Grok Voice Agent(最速、<1s)
感情的な音声 AI	Gemini Live API
長い音声文字起こし	`gemini-3.1-pro-preview`(9.5 時間)
スピーカーダイアライゼーション	AssemblyAI または Gemini
自己ホスト型 STT	Whisper Large V3
キャラクター一貫性のあるビデオ	`kling-v3`(Character Elements 3.0)
ナラティブビデオ/ストーリーテリング	Sora 2(最高の因果関係の一貫性)
シネマティック B ロール	`veo-3.1-generate-preview`(カメラコントロール + ポリッシュされたモーション)
予算ドラフト	`veo-3.1-lite-generate-preview`(約 $0.05/秒、720/1080p)
ミッドティア高速レンダリング	`veo-3.1-fast-generate-preview`
プロフェッショナル VFX	Runway `gen4_turbo`(Act-Two モーション転送)
高ボリュームソーシャルビデオ	`kling-v3` Standard(約 $0.20/ビデオ)
オープンソースビデオ生成	Wan 2.6 または LTX-2
リップシンク/アバタービデオ	`kling-v3`(ネイティブリップシンク API)

例

import anthropic, base64

client = anthropic.Anthropic()
with open("image.png", "rb") as f:
    b64 = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": [
        {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
        {"type": "text", "text": "Describe this image"}
    ]}]
)

よくある間違い

ビジョンリクエストで max_tokens を設定していない(応答が切り詰められる)
リサイズせずに大きな画像を送信している(>2048px)
単純なはい/いいえ分類に high 詳細レベルを使用している
ネイティブ音声間変換の代わりに STT+LLM+TTS パイプラインを使用している
自然な音声会話のためのバージインサポートを活用していない
廃止されたモデル(GPT-4V、Whisper-1)を使用している
ビジョンおよびオーディオエンドポイントのレート制限を無視している
ビデオ生成 API を同期的に呼び出している(非同期のため、ポーリングまたはコールバックを使用してください)
キャラクター要素なしで個別のクリップを生成している(毎回キャラクターが異なって見える)
高ボリュームソーシャルコンテンツに Sora を使用している(高額、低速 — 代わりに Kling Standard を使用してください)

multimodal-llm

SKILL.md 本文