Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 170品質スコア 87/100

multimodal-llm

画像処理、音声の文字起こし、音声生成、AI動画生成(Kling v3、Sora 2、Veo 3.1 std/lite/fast、Runway Gen-4.5(`gen4_turbo`経由))、マルチモーダルAIパイプラインの構築に対応しています。ビジョン、音声、動画生成、およびマルチモーダルLLM統合パターンを使用して、複数の入出力形式を組み合わせたAI処理を実現できます。

description の原文を見る

Vision, audio, video generation, and multimodal LLM integration patterns. Use when processing images, transcribing audio, generating speech, generating AI video (Kling v3, Sora 2, Veo 3.1 std/lite/fast, Runway Gen-4.5 via `gen4_turbo`), or building multimodal AI pipelines.

SKILL.md 本文

マルチモーダル LLM パターン

主要なマルチモーダルモデルからビジョン、オーディオ、ビデオ生成機能を統合します。画像解析、ドキュメント理解、リアルタイム音声エージェント、音声テキスト変換、テキスト音声合成、AI ビデオ生成(Kling v3、Sora 2、Veo 3.1 std/lite/fast ティア、Runway Gen-4.5 via gen4_turbo)に対応します。

カノニカルモデル ID(yonatan-hq/platform/apps/api/app/config.py に固定):

プロバイダーモデル ID
Anthropicclaude-opus-4-7(最新)、claude-opus-4-6claude-sonnet-4-6claude-haiku-4-5-20251001
OpenAIgpt-5.2(現在のフラッグシップ)
Googlegemini-3.1-pro-preview(フラッグシップ)、gemini-3.1-flash-lite-preview(コスト効率)
Veoveo-3.1-generate-preview / veo-3.1-lite-generate-preview / veo-3.1-fast-generate-preview
Klingkling-v3(Kling API の model_name フィールド)
Runwaygen4_turbo(プロダクトラベル: Gen-4.5)

クイックリファレンス

カテゴリルールインパクト使用時期
ビジョン: 画像解析1画像キャプション、VQA、マルチ画像比較、物体検出
ビジョン: ドキュメント理解1OCR、チャート/図解析析、PDF 処理、テーブル抽出
ビジョン: モデル選択1プロバイダー選択、コスト最適化、画像サイズ制限
オーディオ: 音声テキスト変換1文字起こし、スピーカーダイアライゼーション、長形式音声
オーディオ: テキスト音声合成1音声合成、表現力豊かな TTS、マルチスピーカー会話
オーディオ: モデル選択1リアルタイム音声エージェント、プロバイダー比較、価格
ビデオ: モデル選択1ビデオ生成プロバイダー選択(Kling、Sora、Veo、Runway)
ビデオ: API パターン1非同期タスクポーリング、SDK 統合、webhook コールバック
ビデオ: マルチショット1ストーリーボード、キャラクター要素、シーン一貫性

合計: 3 カテゴリ(ビジョン、オーディオ、ビデオ生成)に 9 ルール

ビジョン: 画像解析

マルチモーダル LLM に画像を送信してキャプション、ビジュアル QA、物体検出を実行します。常に max_tokens を設定し、エンコーディング前に画像をリサイズしてください。

ルールファイルキーパターン
画像解析rules/vision-image-analysis.mdBase64 エンコーディング、マルチ画像、バウンディングボックス

ビジョン: ドキュメント理解

ビジョンモデルを使用してドキュメント、チャート、PDF から構造化データを抽出します。

ルールファイルキーパターン
ドキュメントビジョンrules/vision-document.mdPDF ページ範囲、詳細度レベル、OCR 戦略

ビジョン: モデル選択

精度、コスト、コンテキストウィンドウのニーズに基づいて適切なビジョンプロバイダーを選択します。

ルールファイルキーパターン
ビジョンモデルrules/vision-models.mdプロバイダー比較、トークンコスト、画像制限

オーディオ: 音声テキスト変換

スピーカーダイアライゼーション、タイムスタンプ、センチメント分析を含むテキストへのオーディオ変換。

ルールファイルキーパターン
音声テキスト変換rules/audio-speech-to-text.mdGemini 長形式、GPT-4o-Transcribe、AssemblyAI 機能

オーディオ: テキスト音声合成

音声選択と表現力豊かなキューを備えたテキストからの自然な音声生成。

ルールファイルキーパターン
テキスト音声合成rules/audio-text-to-speech.mdGemini TTS、音声設定、音響キュー

オーディオ: モデル選択

リアルタイム、文字起こし、または TTS ユースケース向けの適切なオーディオ/音声プロバイダーを選択します。

ルールファイルキーパターン
オーディオモデルrules/audio-models.mdリアルタイム音声比較、STT ベンチマーク、価格

ビデオ: モデル選択

ユースケース、長さ、予算に基づいて適切なビデオ生成プロバイダーを選択します。

ルールファイルキーパターン
ビデオモデルrules/video-generation-models.mdKling vs Sora vs Veo vs Runway、価格、機能

ビデオ: API パターン

適切な非同期ポーリング、SDK、webhook コールバックを使用してビデオ生成 API を統合します。

ルールファイルキーパターン
API 統合rules/video-generation-patterns.mdKling REST、fal.ai SDK、Vercel AI SDK、タスクポーリング

ビデオ: マルチショット

ストーリーボードとキャラクター要素を使用して、一貫したキャラクターを持つマルチシーンビデオを生成します。

ルールファイルキーパターン
マルチショットrules/video-multi-shot.mdKling v3 キャラクター要素、6 ショットストーリーボード、アイデンティティバインディング

主要な判断基準

判断基準推奨事項
高精度ビジョンclaude-opus-4-7(2,576 px、Opus 4.6 の 3 倍)または gpt-5.2
長いドキュメントgemini-3.1-pro-preview(1M+ コンテキスト)
コスト効率的なビジョンgemini-3.1-flash-lite-preview(Gemini 2.5 Flash を置き換え、2026 年 10 月廃止予定)
ビデオ解析gemini-3.1-pro-preview(ネイティブビデオ、2.5 Pro を上位互換)
音声アシスタントGrok 4.20 上の Grok Voice Agent(最速、<1s)
感情的な音声 AIGemini Live API
長い音声文字起こしgemini-3.1-pro-preview(9.5 時間)
スピーカーダイアライゼーションAssemblyAI または Gemini
自己ホスト型 STTWhisper Large V3
キャラクター一貫性のあるビデオkling-v3(Character Elements 3.0)
ナラティブビデオ/ストーリーテリングSora 2(最高の因果関係の一貫性)
シネマティック B ロールveo-3.1-generate-preview(カメラコントロール + ポリッシュされたモーション)
予算ドラフトveo-3.1-lite-generate-preview(約 $0.05/秒、720/1080p)
ミッドティア高速レンダリングveo-3.1-fast-generate-preview
プロフェッショナル VFXRunway gen4_turbo(Act-Two モーション転送)
高ボリューム ソーシャルビデオkling-v3 Standard(約 $0.20/ビデオ)
オープンソース ビデオ生成Wan 2.6 または LTX-2
リップシンク/アバタービデオkling-v3(ネイティブリップシンク API)

import anthropic, base64

client = anthropic.Anthropic()
with open("image.png", "rb") as f:
    b64 = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": [
        {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
        {"type": "text", "text": "Describe this image"}
    ]}]
)

よくある間違い

  1. ビジョンリクエストで max_tokens を設定していない(応答が切り詰められる)
  2. リサイズせずに大きな画像を送信している(>2048px)
  3. 単純なはい/いいえ分類に high 詳細レベルを使用している
  4. ネイティブ音声間変換の代わりに STT+LLM+TTS パイプラインを使用している
  5. 自然な音声会話のためのバージイン サポートを活用していない
  6. 廃止されたモデル(GPT-4V、Whisper-1)を使用している
  7. ビジョンおよびオーディオエンドポイントのレート制限を無視している
  8. ビデオ生成 API を同期的に呼び出している(非同期のため、ポーリングまたはコールバックを使用してください)
  9. キャラクター要素なしで個別のクリップを生成している(毎回キャラクターが異なって見える)
  10. 高ボリューム ソーシャルコンテンツに Sora を使用している(高額、低速 — 代わりに Kling Standard を使用してください)

関連スキル

  • ork:rag-retrieval - 画像 + テキスト取得を備えたマルチモーダル RAG
  • ork:llm-integration - 一般的な LLM 関数呼び出しパターン
  • streaming-api-patterns - リアルタイムオーディオ用の WebSocket パターン
  • ork:demo-producer - ターミナルデモビデオ(VHS、asciinema)— AI ビデオ生成ではありません

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
yonatangross
リポジトリ
yonatangross/orchestkit
ライセンス
MIT
最終更新
2026/5/12

Source: https://github.com/yonatangross/orchestkit / ライセンス: MIT

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: yonatangross · yonatangross/orchestkit · ライセンス: MIT