Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

minimax-image-understanding

AIを使用して画像を分析するスキルです。`understand_image`ツールを活用し、画像の内容を詳細に解析・理解する際に使用します。

description の原文を見る

Analyze images using AI with the understand_image tool

SKILL.md 本文

MiniMax Image Understanding Skill

understand_image ツールを使用して、画像の分析、説明、情報抽出が必要な場合にこのスキルを使用します。

使い方

understand_image ツールをプロンプトと画像 URL で直接呼び出します:

understand_image({
  prompt: "Your question about the image",
  image_url: "https://example.com/image.png"
})

使用する場面

understand_image は以下の場合に使用します:

  • スクリーンショット: エラーメッセージ、UI の問題、スクリーンショット内のコード
  • ビジュアルコンテンツ: 写真、図表、グラフ、表
  • ドキュメント: 画像からのテキスト抽出 (OCR)、レイアウトの理解
  • UI/UX 分析: デザインの評価、コンポーネントの識別
  • ビジュアルデバッグ: ビジュアルバグやレイアウト問題の理解

使用しない場面

以下の場合は understand_image を使用しないでください:

  • 画像がすでに説明されている: 会話内で既に説明されている場合
  • シンプルなアイコンまたは絵文字: 認識できるシンプルなアイコンや絵文字の場合
  • 画像が提供されていない: 画像 URL にアクセスできない場合
  • 既存コンテキストと冗長: ファイルコンテンツがすでに表示されている場合など

使用例

understand_image({
  prompt: "What do you see in this image?",
  image_url: "https://example.com/screenshot.png"
})

API の詳細

エンドポイント: POST {api_host}/v1/coding_plan/vlm

リクエストボディ:

{
  "prompt": "Your question about the image",
  "image_url": "data:image/jpeg;base64,/9j/4AAQ..."
}

レスポンス形式:

{
  "content": "AI analysis of the image...",
  "base_resp": {
    "status_code": 0,
    "status_msg": "success"
  }
}

画像処理

このツールは 3 種類の画像入力を自動的に処理します:

  1. HTTP/HTTPS URL: 画像をダウンロードして base64 に変換

    • 例: https://example.com/image.jpg
  2. ローカルファイルパス: ローカルファイルを読み込んで base64 に変換

    • 絶対パス: /Users/username/Documents/image.png
    • 相対パス: images/photo.png
    • @ プレフィックスが存在する場合は削除
  3. Base64 データ URL: 既存の base64 データをそのまま渡す

    • 例: data:image/png;base64,iVBORw0KGgo...

対応フォーマット

対応:

  • JPEG (.jpg, .jpeg)
  • PNG (.png)
  • WebP (.webp)

非対応:

  • PDF、GIF、PSD、SVG およびその他のフォーマット

効果的なプロンプトの作成

説明用

  • "この画像の内容を詳しく説明してください"
  • "この画像の主な被写体は何ですか?"
  • "ビジュアルスタイルと構成を説明してください"

コード/技術用

  • "このスクリーンショットに表示されているコードは何ですか?"
  • "この画像からすべてのテキストを抽出してください"
  • "使用されている UI フレームワーク/コンポーネントを特定してください"

分析用

  • "この UI デザインを分析してください。何が良く機能しており、何を改善できますか?"
  • "この画像はどのような感情または雰囲気を伝えていますか?"
  • "このデザインを Material Design の原則と比較してください"

OCR/テキスト抽出用

  • "この画像からすべてのテキストを抽出してください"
  • "このスクリーンショットのエラーメッセージを読んでください"
  • "この画像のラベルは何と言っていますか?"

エラー分析

understand_image({
  prompt: "What is the error message and where is it located in this screenshot?",
  image_url: "./error-screenshot.png"
})

コードスクリーンショット

understand_image({
  prompt: "What code is shown in this screenshot? Please transcribe it exactly.",
  image_url: "https://example.com/code.png"
})

デザインレビュー

understand_image({
  prompt: "Analyze this UI design. What is working well and what could be improved?",
  image_url: "https://example.com/mockup.png"
})

OCR

understand_image({
  prompt: "Extract all text from this image",
  image_url: "/Users/username/Documents/scan.png"
})

ヒント

  1. 具体的に プロンプトで知りたいことを指定してください
  2. 形式を指定 構造化されたアウトプットが必要な場合 (例: "すべての要素をリストアップ")
  3. コンテキストを含める 画像が大きなタスクの一部である場合
  4. スクリーンショットの場合 フルページが必要か、特定の領域だけが必要かを指定してください
  5. 複雑な分析 は確認プロンプトをトリガーする可能性があります (分析、抽出、説明、認識、転記、読み取り)

エラーハンドリング

  • ステータスコード 1004: 認証エラー - API キーと地域を確認してください
  • ステータスコード 2038: 実名認証が必要です
  • 無効な画像: ファイルが存在しないか URL にアクセスできません
  • 非対応フォーマット: 画像フォーマットが JPEG、PNG、WebP に含まれていません

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
imsus
リポジトリ
imsus/pi-extension-minimax-coding-plan-mcp
ライセンス
MIT
最終更新
不明

Source: https://github.com/imsus/pi-extension-minimax-coding-plan-mcp / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: imsus · imsus/pi-extension-minimax-coding-plan-mcp · ライセンス: MIT