汎用LLM・AI開発⭐ リポ 4品質スコア 66/100

ai-multimodal

Name: ai-multimodal
Author: nordeim

Google Gemini APIを使用してマルチメディアコンテンツを処理・生成できます。音声ファイルの分析（タイムスタンプ付き文字起こし、要約、音声理解、音楽・音声解析で最大9.5時間対応）、画像の理解（キャプション生成、物体検出、OCR、ビジュアルQ&A、セグメンテーション）、動画処理（シーン検出、Q&A、時間軸分析、YouTube URL対応で最大6時間）、ドキュメント抽出（PDF表、フォーム、チャート、図表、複数ページ対応）、画像生成（テキストから画像生成、編集、構成、精密化）に対応しています。音声・動画ファイルの処理、画像やスクリーンショットの分析、PDFドキュメント処理、メディアからの構造化データ抽出、テキストプロンプトからの画像生成、マルチモーダルAI機能の実装時に活用できます。Gemini 2.5/2.0など複数モデルに対応し、最大2Mトークンのコンテキストウィンドウをサポートします。

description の原文を見る

Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual Q&A, segmentation), process videos (scene detection, Q&A, temporal analysis, YouTube URLs, up to 6 hours), extract from documents (PDF tables, forms, charts, diagrams, multi-page), generate images (text-to-image, editing, composition, refinement). Use when working with audio/video files, analyzing images or screenshots, processing PDF documents, extracting structured data from media, creating images from text prompts, or implementing multimodal AI features. Supports multiple models (Gemini 2.5/2.0) with context windows up to 2M tokens.

SKILL.md 本文

AIマルチモーダル処理スキル

Google GeminiのマルチモーダルAPIを使用して、オーディオ、画像、ビデオ、ドキュメント、および画像生成を処理します。すべてのマルチメディアコンテンツの理解と生成のための統一インターフェースです。

コア機能

オーディオ処理

タイムスタンプ付きトランスクリプション（最大9.5時間）
オーディオの要約と分析
スピーチ理解とスピーカー識別
音楽と環境音の分析
制御可能な音声によるテキスト音声合成

画像理解

画像キャプション生成と説明
バウンディングボックス付きオブジェクト検出（2.0以上）
ピクセルレベルセグメンテーション（2.5以上）
ビジュアル質問回答
マルチ画像比較（最大3,600画像）
OCRとテキスト抽出

ビデオ分析

シーン検出と要約
時間的理解を含むビデオQ&A
ビジュアル説明付きトランスクリプション
YouTubeURL対応
長時間ビデオ処理（最大6時間）
フレームレベル分析

ドキュメント抽出

ネイティブPDFビジョン処理（最大1,000ページ）
テーブルとフォーム抽出
チャートとダイアグラム分析
マルチページドキュメント理解
構造化データ出力（JSONスキーマ）
フォーマット変換（PDFからHTML/JSONへ）

画像生成

テキストから画像への生成
画像編集と修正
マルチ画像合成（最大3画像）
イテレーティブな改善
複数のアスペクト比（1:1、16:9、9:16、4:3、3:4）
制御可能なスタイルと品質

機能マトリックス

タスク	オーディオ	画像	ビデオ	ドキュメント	生成
トランスクリプション	✓	-	✓	-	-
要約	✓	✓	✓	✓	-
Q&A	✓	✓	✓	✓	-
オブジェクト検出	-	✓	✓	-	-
テキスト抽出	-	✓	-	✓	-
構造化出力	✓	✓	✓	✓	-
作成	TTS	-	-	-	✓
タイムスタンプ	✓	-	✓	-	-
セグメンテーション	-	✓	-	-	-

モデル選択ガイド

Gemini 2.5シリーズ（推奨）

gemini-2.5-pro: 最高品質、すべての機能、1M～2Mコンテキスト
gemini-2.5-flash: 最良のバランス、すべての機能、1M～2Mコンテキスト
gemini-2.5-flash-lite: 軽量、セグメンテーション対応
gemini-2.5-flash-image: 画像生成のみ

Gemini 2.0シリーズ

gemini-2.0-flash: 高速処理、オブジェクト検出
gemini-2.0-flash-lite: 軽量オプション

機能要件

セグメンテーション: 2.5以上のモデルが必須
オブジェクト検出: 2.0以上のモデルが必須
マルチビデオ: 2.5以上のモデルが必須
画像生成: flash-imageモデルが必須

コンテキストウィンドウ

2Mトークン: 約6時間のビデオ（低解像度）または約2時間（デフォルト）
1Mトークン: 約3時間のビデオ（低解像度）または約1時間（デフォルト）
オーディオ: 秒32トークン（1分＝1,920トークン）
PDF: ページあたり258トークン（固定）
画像: サイズに応じて258～1,548トークン

クイックスタート

前提条件

APIキーセットアップ: Google AI StudioとVertex AIの両方に対応しています。

スキルは以下の順序でGEMINI_API_KEYを確認します：

プロセス環境: export GEMINI_API_KEY="your-key"
プロジェクトルート: .env
.claude/.env
.claude/skills/.env
.claude/skills/ai-multimodal/.env

APIキーを取得: https://aistudio.google.com/apikey

Vertex AIの場合:

export GEMINI_USE_VERTEX=true
export VERTEX_PROJECT_ID=your-gcp-project-id
export VERTEX_LOCATION=us-central1  # オプション

SDKのインストール:

pip install google-genai python-dotenv pillow

よくあるパターン

オーディオをトランスクリプション:

python scripts/gemini_batch_process.py \
  --files audio.mp3 \
  --task transcribe \
  --model gemini-2.5-flash

画像を分析:

python scripts/gemini_batch_process.py \
  --files image.jpg \
  --task analyze \
  --prompt "Describe this image" \
  --output docs/assets/<output-name>.md \
  --model gemini-2.5-flash

ビデオを処理:

python scripts/gemini_batch_process.py \
  --files video.mp4 \
  --task analyze \
  --prompt "Summarize key points with timestamps" \
  --output docs/assets/<output-name>.md \
  --model gemini-2.5-flash

PDFから抽出:

python scripts/gemini_batch_process.py \
  --files document.pdf \
  --task extract \
  --prompt "Extract table data as JSON" \
  --output docs/assets/<output-name>.md \
  --format json

画像を生成:

python scripts/gemini_batch_process.py \
  --task generate \
  --prompt "A futuristic city at sunset" \
  --output docs/assets/<output-file-name> \
  --model gemini-2.5-flash-image \
  --aspect-ratio 16:9

メディアを最適化:

# 大きなビデオを処理用に準備
python scripts/media_optimizer.py \
  --input large-video.mp4 \
  --output docs/assets/<output-file-name> \
  --target-size 100MB

# 複数ファイルをバッチ最適化
python scripts/media_optimizer.py \
  --input-dir ./videos \
  --output-dir docs/assets/optimized \
  --quality 85

ドキュメントをMarkdownに変換:

# PDFに変換
python scripts/document_converter.py \
  --input document.docx \
  --output docs/assets/document.md

# ページを抽出
python scripts/document_converter.py \
  --input large.pdf \
  --output docs/assets/chapter1.md \
  --pages 1-20

サポート形式

オーディオ

WAV、MP3、AAC、FLAC、OGG Vorbis、AIFF
1リクエストあたり最大9.5時間
自動的に16 Kbpsモノラルにダウンサンプリング

画像

PNG、JPEG、WEBP、HEIC、HEIF
1リクエストあたり最大3,600画像
解像度: ≤384px = 258トークン、より大きい = タイル状

ビデオ

MP4、MPEG、MOV、AVI、FLV、MPG、WebM、WMV、3GPP
最大6時間（低解像度）または2時間（デフォルト）
YouTubeURL対応（公開動画のみ）

ドキュメント

ビジョン処理はPDFのみ
最大1,000ページ
TXT、HTML、Markdown対応（テキストのみ）

サイズ制限

インライン: <20MB総リクエスト
File API: ファイルあたり2GB、プロジェクトクォータ20GB
保持期間: 48時間自動削除

リファレンスナビゲーション

詳細な実装ガイダンスについては、以下を参照してください：

オーディオ処理

references/audio-processing.md - トランスクリプション、分析、TTS
- タイムスタンプ処理とセグメント分析
- マルチスピーカー識別
- 非スピーチオーディオ分析
- テキスト音声合成生成

画像理解

references/vision-understanding.md - キャプション生成、検出、OCR
- オブジェクト検出と位置特定
- ピクセルレベルセグメンテーション
- ビジュアル質問回答
- マルチ画像比較

ビデオ分析

references/video-analysis.md - シーン検出、時間的理解
- YouTubeURL処理
- タイムスタンプベースのクエリ
- ビデオクリッピングとFPS制御
- 長時間ビデオの最適化

ドキュメント抽出

references/document-extraction.md - PDF処理、構造化出力
- テーブルとフォーム抽出
- チャートとダイアグラム分析
- JSONスキーマ検証
- マルチページ処理

画像生成

references/image-generation.md - テキストから画像へ、編集
- プロンプトエンジニアリング戦略
- 画像編集と合成
- アスペクト比選択
- セーフティ設定

コスト最適化

トークンコスト

入力価格:

Gemini 2.5 Flash: $1.00/1M入力、$0.10/1M出力
Gemini 2.5 Pro: $3.00/1M入力、$12.00/1M出力
Gemini 1.5 Flash: $0.70/1M入力、$0.175/1M出力

トークンレート:

オーディオ: 秒32トークン（1分＝1,920トークン）
ビデオ: 秒約300トークン（デフォルト）または約100（低解像度）
PDF: ページあたり258トークン（固定）
画像: サイズに応じて258～1,548トークン

TTS価格:

Flash TTS: $10/1Mトークン
Pro TTS: $20/1Mトークン

ベストプラクティス

ほとんどのタスクでgemini-2.5-flashを使用（価格/パフォーマンスが最良）
20MBを超えるファイルまたは繰り返しクエリにはFile APIを使用
アップロード前にメディアを最適化（media_optimizer.pyを参照）
ビデオ全体ではなく特定のセグメントを処理
静的コンテンツの場合は低いFPSを使用
繰り返しクエリのためコンテキストキャッシングを実装
複数ファイルを並行してバッチ処理

レート制限

無料ティア:

10～15 RPM（リクエスト/分）
1M～4M TPM（トークン/分）
1,500 RPD（リクエスト/日）

YouTubeの制限:

無料ティア: 8時間/日
有料ティア: 長さの制限なし
公開動画のみ

ストレージ制限:

プロジェクトあたり20GB
ファイルあたり2GB
48時間保持

エラーハンドリング

一般的なエラーと解決策：

400: 無効なフォーマット/サイズ - アップロード前に検証
401: 無効なAPIキー - 設定を確認
403: アクセス拒否 - APIキー制限を検証
404: ファイルが見つかりません - ファイルがアップロードされアクティブであることを確認
429: レート制限超過 - 指数バックオフを実装
500: サーバーエラー - バックオフで再試行

スクリプト概要

すべてのスクリプトは統一APIキー検出とエラーハンドリングをサポートしています：

gemini_batch_process.py: 複数のメディアファイルをバッチ処理

すべてのモダリティ（オーディオ、画像、ビデオ、PDF）に対応
進捗追跡とエラー復旧
出力形式: JSON、Markdown、CSV
レート制限と再試行ロジック
ドライラン機能

media_optimizer.py: Gemini API向けのメディア準備

サイズ制限用のビデオ/オーディオ圧縮
画像の適切なリサイズ
長いビデオをチャンクに分割
フォーマット変換
品質とサイズのトレードオフ最適化

document_converter.py: ドキュメントをPDFに変換

DOCX、XLSX、PPTXからPDFへの変換
ページ範囲抽出
Gemini向けPDF最適化
PDFから画像抽出
バッチ変換対応

任意のスクリプトで--helpを実行して詳細な使用方法を確認してください。

リソース

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: nordeim
リポジトリ: nordeim/Prompt-Engineering
ライセンス: MIT
最終更新: 2026/4/14

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/nordeim/Prompt-Engineering / ライセンス: MIT

SKILL.md 本文

AIマルチモーダル処理スキル

コア機能

オーディオ処理

画像理解

ビデオ分析

ドキュメント抽出

画像生成

機能マトリックス

モデル選択ガイド

Gemini 2.5シリーズ（推奨）

Gemini 2.0シリーズ

機能要件

コンテキストウィンドウ

クイックスタート

前提条件

よくあるパターン

サポート形式

オーディオ

画像

ビデオ

ドキュメント

サイズ制限

リファレンスナビゲーション

オーディオ処理

画像理解

ビデオ分析

ドキュメント抽出

画像生成

コスト最適化

トークンコスト

ベストプラクティス

レート制限

エラーハンドリング

スクリプト概要

リソース

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui