Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 170品質スコア 87/100

multimodal-llm

画像処理、音声の文字起こし、音声生成、AI動画生成(Kling v3、Sora 2、Veo 3.1 std/lite/fast、Runway Gen-4.5(`gen4_turbo`経由))、マルチモーダルAIパイプラインの構築に対応しています。ビジョン、音声、動画生成、およびマルチモーダルLLM統合パターンを使用して、複数の入出力形式を組み合わせたAI処理を実現できます。

description の原文を見る

Vision, audio, video generation, and multimodal LLM integration patterns. Use when processing images, transcribing audio, generating speech, generating AI video (Kling v3, Sora 2, Veo 3.1 std/lite/fast, Runway Gen-4.5 via `gen4_turbo`), or building multimodal AI pipelines.

SKILL.md 本文

マルチモーダル LLM パターン

主要なマルチモーダルモデルからビジョン、オーディオ、ビデオ生成機能を統合します。画像解析、ドキュメント理解、リアルタイム音声エージェント、音声テキスト変換、テキスト音声合成、AI ビデオ生成(Kling v3、Sora 2、Veo 3.1 std/lite/fast ティア、Runway Gen-4.5 via gen4_turbo)に対応します。

カノニカルモデル ID(yonatan-hq/platform/apps/api/app/config.py に固定):

プロバイダーモデル ID
Anthropicclaude-opus-4-7(最新)、claude-opus-4-6claude-sonnet-4-6claude-haiku-4-5-20251001
OpenAIgpt-5.2(現在のフラッグシップ)
Googlegemini-3.1-pro-preview(フラッグシップ)、gemini-3.1-flash-lite-preview(コスト効率)
Veoveo-3.1-generate-preview / veo-3.1-lite-generate-preview / veo-3.1-fast-generate-preview
Klingkling-v3(Kling API の model_name フィールド)
Runwaygen4_turbo(プロダクトラベル: Gen-4.5)

クイックリファレンス

カテゴリルールインパクト使用時期
ビジョン: 画像解析1画像キャプション、VQA、マルチ画像比較、物体検出
ビジョン: ドキュメント理解1OCR、チャート/図解析析、PDF 処理、テーブル抽出
ビジョン: モデル選択1プロバイダー選択、コスト最適化、画像サイズ制限
オーディオ: 音声テキスト変換1文字起こし、スピーカーダイアライゼーション、長形式音声
オーディオ: テキスト音声合成1音声合成、表現力豊かな TTS、マルチスピーカー会話
オーディオ: モデル選択1リアルタイム音声エージェント、プロバイダー比較、価格
ビデオ: モデル選択1ビデオ生成プロバイダー選択(Kling、Sora、Veo、Runway)
ビデオ: API パターン1非同期タスクポーリング、SDK 統合、webhook コールバック
ビデオ: マルチショット1ストーリーボード、キャラクター要素、シーン一貫性

合計: 3 カテゴリ(ビジョン、オーディオ、ビデオ生成)に 9 ルール

ビジョン: 画像解析

マルチモーダル LLM に画像を送信してキャプション、ビジュアル QA、物体検出を実行します。常に max_tokens を設定し、エンコーディング前に画像をリサイズしてください。

ルールファイルキーパターン
画像解析rules/vision-image-analysis.mdBase64 エンコーディング、マルチ画像、バウンディングボックス

ビジョン: ドキュメント理解

ビジョンモデルを使用してドキュメント、チャート、PDF から構造化データを抽出します。

ルールファイルキーパターン
ドキュメントビジョンrules/vision-document.mdPDF ページ範囲、詳細度レベル、OCR 戦略

ビジョン: モデル選択

精度、コスト、コンテキストウィンドウのニーズに基づいて適切なビジョンプロバイダーを選択します。

ルールファイルキーパターン
ビジョンモデルrules/vision-models.mdプロバイダー比較、トークンコスト、画像制限

オーディオ: 音声テキスト変換

スピーカーダイアライゼーション、タイムスタンプ、センチメント分析を含むテキストへのオーディオ変換。

ルールファイルキーパターン
音声テキスト変換rules/audio-speech-to-text.mdGemini 長形式、GPT-4o-Transcribe、AssemblyAI 機能

オーディオ: テキスト音声合成

音声選択と表現力豊かなキューを備えたテキストからの自然な音声生成。

ルールファイルキーパターン
テキスト音声合成rules/audio-text-to-speech.mdGemini TTS、音声設定、音響キュー

オーディオ: モデル選択

リアルタイム、文字起こし、または TTS ユースケース向けの適切なオーディオ/音声プロバイダーを選択します。

ルールファイルキーパターン
オーディオモデルrules/audio-models.mdリアルタイム音声比較、STT ベンチマーク、価格

ビデオ: モデル選択

ユースケース、長さ、予算に基づいて適切なビデオ生成プロバイダーを選択します。

ルールファイルキーパターン
ビデオモデルrules/video-generation-models.mdKling vs Sora vs Veo vs Runway、価格、機能

ビデオ: API パターン

適切な非同期ポーリング、SDK、webhook コールバックを使用してビデオ生成 API を統合します。

ルールファイルキーパターン
API 統合rules/video-generation-patterns.mdKling REST、fal.ai SDK、Vercel AI SDK、タスクポーリング

ビデオ: マルチショット

ストーリーボードとキャラクター要素を使用して、一貫したキャラクターを持つマルチシーンビデオを生成します。

ルールファイルキーパターン
マルチショットrules/video-multi-shot.mdKling v3 キャラクター要素、6 ショットストーリーボード、アイデンティティバインディング

主要な判断基準

判断基準推奨事項
高精度ビジョンclaude-opus-4-7(2,576 px、Opus 4.6 の 3 倍)または gpt-5.2
長いドキュメントgemini-3.1-pro-preview(1M+ コンテキスト)
コスト効率的なビジョンgemini-3.1-flash-lite-preview(Gemini 2.5 Flash を置き換え、2026 年 10 月廃止予定)
ビデオ解析gemini-3.1-pro-preview(ネイティブビデオ、2.5 Pro を上位互換)
音声アシスタントGrok 4.20 上の Grok Voice Agent(最速、<1s)
感情的な音声 AIGemini Live API
長い音声文字起こしgemini-3.1-pro-preview(9.5 時間)
スピーカーダイアライゼーションAssemblyAI または Gemini
自己ホスト型 STTWhisper Large V3
キャラクター一貫性のあるビデオkling-v3(Character Elements 3.0)
ナラティブビデオ/ストーリーテリングSora 2(最高の因果関係の一貫性)
シネマティック B ロールveo-3.1-generate-preview(カメラコントロール + ポリッシュされたモーション)
予算ドラフトveo-3.1-lite-generate-preview(約 $0.05/秒、720/1080p)
ミッドティア高速レンダリングveo-3.1-fast-generate-preview
プロフェッショナル VFXRunway gen4_turbo(Act-Two モーション転送)
高ボリューム ソーシャルビデオkling-v3 Standard(約 $0.20/ビデオ)
オープンソース ビデオ生成Wan 2.6 または LTX-2
リップシンク/アバタービデオkling-v3(ネイティブリップシンク API)

import anthropic, base64

client = anthropic.Anthropic()
with open("image.png", "rb") as f:
    b64 = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": [
        {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
        {"type": "text", "text": "Describe this image"}
    ]}]
)

よくある間違い

  1. ビジョンリクエストで max_tokens を設定していない(応答が切り詰められる)
  2. リサイズせずに大きな画像を送信している(>2048px)
  3. 単純なはい/いいえ分類に high 詳細レベルを使用している
  4. ネイティブ音声間変換の代わりに STT+LLM+TTS パイプラインを使用している
  5. 自然な音声会話のためのバージイン サポートを活用していない
  6. 廃止されたモデル(GPT-4V、Whisper-1)を使用している
  7. ビジョンおよびオーディオエンドポイントのレート制限を無視している
  8. ビデオ生成 API を同期的に呼び出している(非同期のため、ポーリングまたはコールバックを使用してください)
  9. キャラクター要素なしで個別のクリップを生成している(毎回キャラクターが異なって見える)
  10. 高ボリューム ソーシャルコンテンツに Sora を使用している(高額、低速 — 代わりに Kling Standard を使用してください)

関連スキル

  • ork:rag-retrieval - 画像 + テキスト取得を備えたマルチモーダル RAG
  • ork:llm-integration - 一般的な LLM 関数呼び出しパターン
  • streaming-api-patterns - リアルタイムオーディオ用の WebSocket パターン
  • ork:demo-producer - ターミナルデモビデオ(VHS、asciinema)— AI ビデオ生成ではありません

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
yonatangross
リポジトリ
yonatangross/orchestkit
ライセンス
MIT
最終更新
2026/5/12

Source: https://github.com/yonatangross/orchestkit / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: yonatangross · yonatangross/orchestkit · ライセンス: MIT