multimodal-llm
画像処理、音声の文字起こし、音声生成、AI動画生成(Kling v3、Sora 2、Veo 3.1 std/lite/fast、Runway Gen-4.5(`gen4_turbo`経由))、マルチモーダルAIパイプラインの構築に対応しています。ビジョン、音声、動画生成、およびマルチモーダルLLM統合パターンを使用して、複数の入出力形式を組み合わせたAI処理を実現できます。
description の原文を見る
Vision, audio, video generation, and multimodal LLM integration patterns. Use when processing images, transcribing audio, generating speech, generating AI video (Kling v3, Sora 2, Veo 3.1 std/lite/fast, Runway Gen-4.5 via `gen4_turbo`), or building multimodal AI pipelines.
SKILL.md 本文
マルチモーダル LLM パターン
主要なマルチモーダルモデルからビジョン、オーディオ、ビデオ生成機能を統合します。画像解析、ドキュメント理解、リアルタイム音声エージェント、音声テキスト変換、テキスト音声合成、AI ビデオ生成(Kling v3、Sora 2、Veo 3.1 std/lite/fast ティア、Runway Gen-4.5 via gen4_turbo)に対応します。
カノニカルモデル ID(
yonatan-hq/platform/apps/api/app/config.pyに固定):
プロバイダー モデル ID Anthropic claude-opus-4-7(最新)、claude-opus-4-6、claude-sonnet-4-6、claude-haiku-4-5-20251001OpenAI gpt-5.2(現在のフラッグシップ)gemini-3.1-pro-preview(フラッグシップ)、gemini-3.1-flash-lite-preview(コスト効率)Veo veo-3.1-generate-preview/veo-3.1-lite-generate-preview/veo-3.1-fast-generate-previewKling kling-v3(Kling API の model_name フィールド)Runway gen4_turbo(プロダクトラベル: Gen-4.5)
クイックリファレンス
| カテゴリ | ルール | インパクト | 使用時期 |
|---|---|---|---|
| ビジョン: 画像解析 | 1 | 高 | 画像キャプション、VQA、マルチ画像比較、物体検出 |
| ビジョン: ドキュメント理解 | 1 | 高 | OCR、チャート/図解析析、PDF 処理、テーブル抽出 |
| ビジョン: モデル選択 | 1 | 中 | プロバイダー選択、コスト最適化、画像サイズ制限 |
| オーディオ: 音声テキスト変換 | 1 | 高 | 文字起こし、スピーカーダイアライゼーション、長形式音声 |
| オーディオ: テキスト音声合成 | 1 | 中 | 音声合成、表現力豊かな TTS、マルチスピーカー会話 |
| オーディオ: モデル選択 | 1 | 中 | リアルタイム音声エージェント、プロバイダー比較、価格 |
| ビデオ: モデル選択 | 1 | 高 | ビデオ生成プロバイダー選択(Kling、Sora、Veo、Runway) |
| ビデオ: API パターン | 1 | 高 | 非同期タスクポーリング、SDK 統合、webhook コールバック |
| ビデオ: マルチショット | 1 | 高 | ストーリーボード、キャラクター要素、シーン一貫性 |
合計: 3 カテゴリ(ビジョン、オーディオ、ビデオ生成)に 9 ルール
ビジョン: 画像解析
マルチモーダル LLM に画像を送信してキャプション、ビジュアル QA、物体検出を実行します。常に max_tokens を設定し、エンコーディング前に画像をリサイズしてください。
| ルール | ファイル | キーパターン |
|---|---|---|
| 画像解析 | rules/vision-image-analysis.md | Base64 エンコーディング、マルチ画像、バウンディングボックス |
ビジョン: ドキュメント理解
ビジョンモデルを使用してドキュメント、チャート、PDF から構造化データを抽出します。
| ルール | ファイル | キーパターン |
|---|---|---|
| ドキュメントビジョン | rules/vision-document.md | PDF ページ範囲、詳細度レベル、OCR 戦略 |
ビジョン: モデル選択
精度、コスト、コンテキストウィンドウのニーズに基づいて適切なビジョンプロバイダーを選択します。
| ルール | ファイル | キーパターン |
|---|---|---|
| ビジョンモデル | rules/vision-models.md | プロバイダー比較、トークンコスト、画像制限 |
オーディオ: 音声テキスト変換
スピーカーダイアライゼーション、タイムスタンプ、センチメント分析を含むテキストへのオーディオ変換。
| ルール | ファイル | キーパターン |
|---|---|---|
| 音声テキスト変換 | rules/audio-speech-to-text.md | Gemini 長形式、GPT-4o-Transcribe、AssemblyAI 機能 |
オーディオ: テキスト音声合成
音声選択と表現力豊かなキューを備えたテキストからの自然な音声生成。
| ルール | ファイル | キーパターン |
|---|---|---|
| テキスト音声合成 | rules/audio-text-to-speech.md | Gemini TTS、音声設定、音響キュー |
オーディオ: モデル選択
リアルタイム、文字起こし、または TTS ユースケース向けの適切なオーディオ/音声プロバイダーを選択します。
| ルール | ファイル | キーパターン |
|---|---|---|
| オーディオモデル | rules/audio-models.md | リアルタイム音声比較、STT ベンチマーク、価格 |
ビデオ: モデル選択
ユースケース、長さ、予算に基づいて適切なビデオ生成プロバイダーを選択します。
| ルール | ファイル | キーパターン |
|---|---|---|
| ビデオモデル | rules/video-generation-models.md | Kling vs Sora vs Veo vs Runway、価格、機能 |
ビデオ: API パターン
適切な非同期ポーリング、SDK、webhook コールバックを使用してビデオ生成 API を統合します。
| ルール | ファイル | キーパターン |
|---|---|---|
| API 統合 | rules/video-generation-patterns.md | Kling REST、fal.ai SDK、Vercel AI SDK、タスクポーリング |
ビデオ: マルチショット
ストーリーボードとキャラクター要素を使用して、一貫したキャラクターを持つマルチシーンビデオを生成します。
| ルール | ファイル | キーパターン |
|---|---|---|
| マルチショット | rules/video-multi-shot.md | Kling v3 キャラクター要素、6 ショットストーリーボード、アイデンティティバインディング |
主要な判断基準
| 判断基準 | 推奨事項 |
|---|---|
| 高精度ビジョン | claude-opus-4-7(2,576 px、Opus 4.6 の 3 倍)または gpt-5.2 |
| 長いドキュメント | gemini-3.1-pro-preview(1M+ コンテキスト) |
| コスト効率的なビジョン | gemini-3.1-flash-lite-preview(Gemini 2.5 Flash を置き換え、2026 年 10 月廃止予定) |
| ビデオ解析 | gemini-3.1-pro-preview(ネイティブビデオ、2.5 Pro を上位互換) |
| 音声アシスタント | Grok 4.20 上の Grok Voice Agent(最速、<1s) |
| 感情的な音声 AI | Gemini Live API |
| 長い音声文字起こし | gemini-3.1-pro-preview(9.5 時間) |
| スピーカーダイアライゼーション | AssemblyAI または Gemini |
| 自己ホスト型 STT | Whisper Large V3 |
| キャラクター一貫性のあるビデオ | kling-v3(Character Elements 3.0) |
| ナラティブビデオ/ストーリーテリング | Sora 2(最高の因果関係の一貫性) |
| シネマティック B ロール | veo-3.1-generate-preview(カメラコントロール + ポリッシュされたモーション) |
| 予算ドラフト | veo-3.1-lite-generate-preview(約 $0.05/秒、720/1080p) |
| ミッドティア高速レンダリング | veo-3.1-fast-generate-preview |
| プロフェッショナル VFX | Runway gen4_turbo(Act-Two モーション転送) |
| 高ボリューム ソーシャルビデオ | kling-v3 Standard(約 $0.20/ビデオ) |
| オープンソース ビデオ生成 | Wan 2.6 または LTX-2 |
| リップシンク/アバタービデオ | kling-v3(ネイティブリップシンク API) |
例
import anthropic, base64
client = anthropic.Anthropic()
with open("image.png", "rb") as f:
b64 = base64.standard_b64encode(f.read()).decode("utf-8")
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "Describe this image"}
]}]
)
よくある間違い
- ビジョンリクエストで
max_tokensを設定していない(応答が切り詰められる) - リサイズせずに大きな画像を送信している(>2048px)
- 単純なはい/いいえ分類に
high詳細レベルを使用している - ネイティブ音声間変換の代わりに STT+LLM+TTS パイプラインを使用している
- 自然な音声会話のためのバージイン サポートを活用していない
- 廃止されたモデル(GPT-4V、Whisper-1)を使用している
- ビジョンおよびオーディオエンドポイントのレート制限を無視している
- ビデオ生成 API を同期的に呼び出している(非同期のため、ポーリングまたはコールバックを使用してください)
- キャラクター要素なしで個別のクリップを生成している(毎回キャラクターが異なって見える)
- 高ボリューム ソーシャルコンテンツに Sora を使用している(高額、低速 — 代わりに Kling Standard を使用してください)
関連スキル
ork:rag-retrieval- 画像 + テキスト取得を備えたマルチモーダル RAGork:llm-integration- 一般的な LLM 関数呼び出しパターンstreaming-api-patterns- リアルタイムオーディオ用の WebSocket パターンork:demo-producer- ターミナルデモビデオ(VHS、asciinema)— AI ビデオ生成ではありません
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- yonatangross
- ライセンス
- MIT
- 最終更新
- 2026/5/12
Source: https://github.com/yonatangross/orchestkit / ライセンス: MIT