ai-multimodal
Google Gemini APIを使用してマルチメディアコンテンツを処理・生成できます。音声ファイルの分析(タイムスタンプ付き文字起こし、要約、音声理解、音楽・音声解析で最大9.5時間対応)、画像の理解(キャプション生成、物体検出、OCR、ビジュアルQ&A、セグメンテーション)、動画処理(シーン検出、Q&A、時間軸分析、YouTube URL対応で最大6時間)、ドキュメント抽出(PDF表、フォーム、チャート、図表、複数ページ対応)、画像生成(テキストから画像生成、編集、構成、精密化)に対応しています。音声・動画ファイルの処理、画像やスクリーンショットの分析、PDFドキュメント処理、メディアからの構造化データ抽出、テキストプロンプトからの画像生成、マルチモーダルAI機能の実装時に活用できます。Gemini 2.5/2.0など複数モデルに対応し、最大2Mトークンのコンテキストウィンドウをサポートします。
description の原文を見る
Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual Q&A, segmentation), process videos (scene detection, Q&A, temporal analysis, YouTube URLs, up to 6 hours), extract from documents (PDF tables, forms, charts, diagrams, multi-page), generate images (text-to-image, editing, composition, refinement). Use when working with audio/video files, analyzing images or screenshots, processing PDF documents, extracting structured data from media, creating images from text prompts, or implementing multimodal AI features. Supports multiple models (Gemini 2.5/2.0) with context windows up to 2M tokens.
SKILL.md 本文
AIマルチモーダル処理スキル
Google GeminiのマルチモーダルAPIを使用して、オーディオ、画像、ビデオ、ドキュメント、および画像生成を処理します。すべてのマルチメディアコンテンツの理解と生成のための統一インターフェースです。
コア機能
オーディオ処理
- タイムスタンプ付きトランスクリプション(最大9.5時間)
- オーディオの要約と分析
- スピーチ理解とスピーカー識別
- 音楽と環境音の分析
- 制御可能な音声によるテキスト音声合成
画像理解
- 画像キャプション生成と説明
- バウンディングボックス付きオブジェクト検出(2.0以上)
- ピクセルレベルセグメンテーション(2.5以上)
- ビジュアル質問回答
- マルチ画像比較(最大3,600画像)
- OCRとテキスト抽出
ビデオ分析
- シーン検出と要約
- 時間的理解を含むビデオQ&A
- ビジュアル説明付きトランスクリプション
- YouTubeURL対応
- 長時間ビデオ処理(最大6時間)
- フレームレベル分析
ドキュメント抽出
- ネイティブPDFビジョン処理(最大1,000ページ)
- テーブルとフォーム抽出
- チャートとダイアグラム分析
- マルチページドキュメント理解
- 構造化データ出力(JSONスキーマ)
- フォーマット変換(PDFか
...
詳細情報
- 作者
- nordeim
- ライセンス
- 不明
- 最終更新
- 2026/4/14
Source: https://github.com/nordeim/Prompt-Engineering / ライセンス: 未指定