ai-multimodal
Google Gemini APIを使用してマルチメディアコンテンツを処理・生成できます。音声ファイルの分析(タイムスタンプ付き文字起こし、要約、音声理解、音楽・音声解析で最大9.5時間対応)、画像の理解(キャプション生成、物体検出、OCR、ビジュアルQ&A、セグメンテーション)、動画処理(シーン検出、Q&A、時間軸分析、YouTube URL対応で最大6時間)、ドキュメント抽出(PDF表、フォーム、チャート、図表、複数ページ対応)、画像生成(テキストから画像生成、編集、構成、精密化)に対応しています。音声・動画ファイルの処理、画像やスクリーンショットの分析、PDFドキュメント処理、メディアからの構造化データ抽出、テキストプロンプトからの画像生成、マルチモーダルAI機能の実装時に活用できます。Gemini 2.5/2.0など複数モデルに対応し、最大2Mトークンのコンテキストウィンドウをサポートします。
description の原文を見る
Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual Q&A, segmentation), process videos (scene detection, Q&A, temporal analysis, YouTube URLs, up to 6 hours), extract from documents (PDF tables, forms, charts, diagrams, multi-page), generate images (text-to-image, editing, composition, refinement). Use when working with audio/video files, analyzing images or screenshots, processing PDF documents, extracting structured data from media, creating images from text prompts, or implementing multimodal AI features. Supports multiple models (Gemini 2.5/2.0) with context windows up to 2M tokens.
SKILL.md 本文
AIマルチモーダル処理スキル
Google GeminiのマルチモーダルAPIを使用して、オーディオ、画像、ビデオ、ドキュメント、および画像生成を処理します。すべてのマルチメディアコンテンツの理解と生成のための統一インターフェースです。
コア機能
オーディオ処理
- タイムスタンプ付きトランスクリプション(最大9.5時間)
- オーディオの要約と分析
- スピーチ理解とスピーカー識別
- 音楽と環境音の分析
- 制御可能な音声によるテキスト音声合成
画像理解
- 画像キャプション生成と説明
- バウンディングボックス付きオブジェクト検出(2.0以上)
- ピクセルレベルセグメンテーション(2.5以上)
- ビジュアル質問回答
- マルチ画像比較(最大3,600画像)
- OCRとテキスト抽出
ビデオ分析
- シーン検出と要約
- 時間的理解を含むビデオQ&A
- ビジュアル説明付きトランスクリプション
- YouTubeURL対応
- 長時間ビデオ処理(最大6時間)
- フレームレベル分析
ドキュメント抽出
- ネイティブPDFビジョン処理(最大1,000ページ)
- テーブルとフォーム抽出
- チャートとダイアグラム分析
- マルチページドキュメント理解
- 構造化データ出力(JSONスキーマ)
- フォーマット変換(PDFからHTML/JSONへ)
画像生成
- テキストから画像への生成
- 画像編集と修正
- マルチ画像合成(最大3画像)
- イテレーティブな改善
- 複数のアスペクト比(1:1、16:9、9:16、4:3、3:4)
- 制御可能なスタイルと品質
機能マトリックス
| タスク | オーディオ | 画像 | ビデオ | ドキュメント | 生成 |
|---|---|---|---|---|---|
| トランスクリプション | ✓ | - | ✓ | - | - |
| 要約 | ✓ | ✓ | ✓ | ✓ | - |
| Q&A | ✓ | ✓ | ✓ | ✓ | - |
| オブジェクト検出 | - | ✓ | ✓ | - | - |
| テキスト抽出 | - | ✓ | - | ✓ | - |
| 構造化出力 | ✓ | ✓ | ✓ | ✓ | - |
| 作成 | TTS | - | - | - | ✓ |
| タイムスタンプ | ✓ | - | ✓ | - | - |
| セグメンテーション | - | ✓ | - | - | - |
モデル選択ガイド
Gemini 2.5シリーズ(推奨)
- gemini-2.5-pro: 最高品質、すべての機能、1M~2Mコンテキスト
- gemini-2.5-flash: 最良のバランス、すべての機能、1M~2Mコンテキスト
- gemini-2.5-flash-lite: 軽量、セグメンテーション対応
- gemini-2.5-flash-image: 画像生成のみ
Gemini 2.0シリーズ
- gemini-2.0-flash: 高速処理、オブジェクト検出
- gemini-2.0-flash-lite: 軽量オプション
機能要件
- セグメンテーション: 2.5以上のモデルが必須
- オブジェクト検出: 2.0以上のモデルが必須
- マルチビデオ: 2.5以上のモデルが必須
- 画像生成: flash-imageモデルが必須
コンテキストウィンドウ
- 2Mトークン: 約6時間のビデオ(低解像度)または約2時間(デフォルト)
- 1Mトークン: 約3時間のビデオ(低解像度)または約1時間(デフォルト)
- オーディオ: 秒32トークン(1分=1,920トークン)
- PDF: ページあたり258トークン(固定)
- 画像: サイズに応じて258~1,548トークン
クイックスタート
前提条件
APIキーセットアップ: Google AI StudioとVertex AIの両方に対応しています。
スキルは以下の順序でGEMINI_API_KEYを確認します:
- プロセス環境:
export GEMINI_API_KEY="your-key" - プロジェクトルート:
.env .claude/.env.claude/skills/.env.claude/skills/ai-multimodal/.env
APIキーを取得: https://aistudio.google.com/apikey
Vertex AIの場合:
export GEMINI_USE_VERTEX=true
export VERTEX_PROJECT_ID=your-gcp-project-id
export VERTEX_LOCATION=us-central1 # オプション
SDKのインストール:
pip install google-genai python-dotenv pillow
よくあるパターン
オーディオをトランスクリプション:
python scripts/gemini_batch_process.py \
--files audio.mp3 \
--task transcribe \
--model gemini-2.5-flash
画像を分析:
python scripts/gemini_batch_process.py \
--files image.jpg \
--task analyze \
--prompt "Describe this image" \
--output docs/assets/<output-name>.md \
--model gemini-2.5-flash
ビデオを処理:
python scripts/gemini_batch_process.py \
--files video.mp4 \
--task analyze \
--prompt "Summarize key points with timestamps" \
--output docs/assets/<output-name>.md \
--model gemini-2.5-flash
PDFから抽出:
python scripts/gemini_batch_process.py \
--files document.pdf \
--task extract \
--prompt "Extract table data as JSON" \
--output docs/assets/<output-name>.md \
--format json
画像を生成:
python scripts/gemini_batch_process.py \
--task generate \
--prompt "A futuristic city at sunset" \
--output docs/assets/<output-file-name> \
--model gemini-2.5-flash-image \
--aspect-ratio 16:9
メディアを最適化:
# 大きなビデオを処理用に準備
python scripts/media_optimizer.py \
--input large-video.mp4 \
--output docs/assets/<output-file-name> \
--target-size 100MB
# 複数ファイルをバッチ最適化
python scripts/media_optimizer.py \
--input-dir ./videos \
--output-dir docs/assets/optimized \
--quality 85
ドキュメントをMarkdownに変換:
# PDFに変換
python scripts/document_converter.py \
--input document.docx \
--output docs/assets/document.md
# ページを抽出
python scripts/document_converter.py \
--input large.pdf \
--output docs/assets/chapter1.md \
--pages 1-20
サポート形式
オーディオ
- WAV、MP3、AAC、FLAC、OGG Vorbis、AIFF
- 1リクエストあたり最大9.5時間
- 自動的に16 Kbpsモノラルにダウンサンプリング
画像
- PNG、JPEG、WEBP、HEIC、HEIF
- 1リクエストあたり最大3,600画像
- 解像度: ≤384px = 258トークン、より大きい = タイル状
ビデオ
- MP4、MPEG、MOV、AVI、FLV、MPG、WebM、WMV、3GPP
- 最大6時間(低解像度)または2時間(デフォルト)
- YouTubeURL対応(公開動画のみ)
ドキュメント
- ビジョン処理はPDFのみ
- 最大1,000ページ
- TXT、HTML、Markdown対応(テキストのみ)
サイズ制限
- インライン: <20MB総リクエスト
- File API: ファイルあたり2GB、プロジェクトクォータ20GB
- 保持期間: 48時間自動削除
リファレンスナビゲーション
詳細な実装ガイダンスについては、以下を参照してください:
オーディオ処理
references/audio-processing.md- トランスクリプション、分析、TTS- タイムスタンプ処理とセグメント分析
- マルチスピーカー識別
- 非スピーチオーディオ分析
- テキスト音声合成生成
画像理解
references/vision-understanding.md- キャプション生成、検出、OCR- オブジェクト検出と位置特定
- ピクセルレベルセグメンテーション
- ビジュアル質問回答
- マルチ画像比較
ビデオ分析
references/video-analysis.md- シーン検出、時間的理解- YouTubeURL処理
- タイムスタンプベースのクエリ
- ビデオクリッピングとFPS制御
- 長時間ビデオの最適化
ドキュメント抽出
references/document-extraction.md- PDF処理、構造化出力- テーブルとフォーム抽出
- チャートとダイアグラム分析
- JSONスキーマ検証
- マルチページ処理
画像生成
references/image-generation.md- テキストから画像へ、編集- プロンプトエンジニアリング戦略
- 画像編集と合成
- アスペクト比選択
- セーフティ設定
コスト最適化
トークンコスト
入力価格:
- Gemini 2.5 Flash: $1.00/1M入力、$0.10/1M出力
- Gemini 2.5 Pro: $3.00/1M入力、$12.00/1M出力
- Gemini 1.5 Flash: $0.70/1M入力、$0.175/1M出力
トークンレート:
- オーディオ: 秒32トークン(1分=1,920トークン)
- ビデオ: 秒約300トークン(デフォルト)または約100(低解像度)
- PDF: ページあたり258トークン(固定)
- 画像: サイズに応じて258~1,548トークン
TTS価格:
- Flash TTS: $10/1Mトークン
- Pro TTS: $20/1Mトークン
ベストプラクティス
- ほとんどのタスクで
gemini-2.5-flashを使用(価格/パフォーマンスが最良) - 20MBを超えるファイルまたは繰り返しクエリにはFile APIを使用
- アップロード前にメディアを最適化(
media_optimizer.pyを参照) - ビデオ全体ではなく特定のセグメントを処理
- 静的コンテンツの場合は低いFPSを使用
- 繰り返しクエリのためコンテキストキャッシングを実装
- 複数ファイルを並行してバッチ処理
レート制限
無料ティア:
- 10~15 RPM(リクエスト/分)
- 1M~4M TPM(トークン/分)
- 1,500 RPD(リクエスト/日)
YouTubeの制限:
- 無料ティア: 8時間/日
- 有料ティア: 長さの制限なし
- 公開動画のみ
ストレージ制限:
- プロジェクトあたり20GB
- ファイルあたり2GB
- 48時間保持
エラーハンドリング
一般的なエラーと解決策:
- 400: 無効なフォーマット/サイズ - アップロード前に検証
- 401: 無効なAPIキー - 設定を確認
- 403: アクセス拒否 - APIキー制限を検証
- 404: ファイルが見つかりません - ファイルがアップロードされアクティブであることを確認
- 429: レート制限超過 - 指数バックオフを実装
- 500: サーバーエラー - バックオフで再試行
スクリプト概要
すべてのスクリプトは統一APIキー検出とエラーハンドリングをサポートしています:
gemini_batch_process.py: 複数のメディアファイルをバッチ処理
- すべてのモダリティ(オーディオ、画像、ビデオ、PDF)に対応
- 進捗追跡とエラー復旧
- 出力形式: JSON、Markdown、CSV
- レート制限と再試行ロジック
- ドライラン機能
media_optimizer.py: Gemini API向けのメディア準備
- サイズ制限用のビデオ/オーディオ圧縮
- 画像の適切なリサイズ
- 長いビデオをチャンクに分割
- フォーマット変換
- 品質とサイズのトレードオフ最適化
document_converter.py: ドキュメントをPDFに変換
- DOCX、XLSX、PPTXからPDFへの変換
- ページ範囲抽出
- Gemini向けPDF最適化
- PDFから画像抽出
- バッチ変換対応
任意のスクリプトで--helpを実行して詳細な使用方法を確認してください。
リソース
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- nordeim
- ライセンス
- MIT
- 最終更新
- 2026/4/14
Source: https://github.com/nordeim/Prompt-Engineering / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。