or-evaluate-model
ユーザーが単一のOpenRouterモデルについて、ORカタログの範囲を超えた詳細な評価を希望する場合に使用します。モデルカード、論文、ベンチマーク、ライセンス、既知の制限事項などを提供します。「<モデル>を<タスク>で評価して」「<ORモデル>について深掘りして」「<モデル>をOpenRouterを超えて調査して」「<モデル>は<ユースケース>に適していますか」「<ORモデル>について全て教えて」「<モデル>のモデルカードを表示して」といったフレーズで発動します。
description の原文を見る
Use when the user wants a deep evaluation of a single OpenRouter model that goes beyond the OR catalog — model card, paper, benchmarks, license, known limitations. Triggers on phrases like "evaluate <model> for <task>", "deep dive on <OR model>", "research <model> beyond OpenRouter", "is <model> good for <use case>", "tell me everything about <OR model>", "model card for <model>".
SKILL.md 本文
OpenRouter モデルの詳細評価
ユーザーが検討している単一モデルの包括的な評価を実施します。OpenRouter カタログデータと外部リサーチ (Hugging Face モデルカード、原論文、ライセンス、ベンチマークカバレッジ、コミュニティフィードバック) を組み合わせて、ユーザーに自信を持った採用/非採用の判断を提供します。
使用時機
ユーザーがモデルを絞り込んでおり (or-recommend-model または or-compare-models から得たことが多い)、実際のワークフロー、本番環境へのデプロイメント、または既存システムとの比較前に、そのモデルを深く理解したいと考えている場合です。
ワークフロー
ステップ 1: カタログスナップショット
OpenRouter カタログを取得し、対象モデルの完全なレコードを抽出します:
curl -s https://openrouter.ai/api/v1/models -H "Accept: application/json"
以下を記録します: id、context_length、modalities、pricing、supported_parameters、top_provider の情報、description、created date。
ステップ 2: 外部リサーチ
OR カタログを超えて調査を進めます。利用可能なリサーチツール (WebFetch、ウェブ検索、Hugging Face MCP が利用可能な場合) を使用して以下を収集します:
- Hugging Face モデルカード — オープンウェイトモデルの場合、
huggingface.co/<org>/<repo>から取得します。以下を確認します: 訓練データ、訓練コンピュート、ライセンス、想定用途、制限事項、評価結果。 - 原論文 — モデルに arXiv 論文がある場合、主要な主張 (アーキテクチャ、訓練規模、主要なベンチマーク) を要約します。
- プロバイダー自身の発表 / ドキュメント — 独自のモデル (OpenAI、Anthropic、Google) の場合、公式ページから情報を取得します。
- ライセンス — ライセンスと商用利用の制限を明確に記載します。これは特に Llama、Qwen、DeepSeek、Mistral ファミリーにおいて重要です。
- ベンチマークカバレッジ — どの公開ベンチマークでテストされているか。MMLU、HumanEval、GSM8K、SWE-bench などの主要スコア — ただし実際に見つけることができるスコアのみを引用し、記憶から引っ張り出さないようにします。
- 既知の制限事項 / 失敗パターン — モデルが不得意なことは何か。推論の深さ、多言語対応のギャップ、ハルシネーション率、拒否動作。
- コミュニティの反応 — 見つけられる場合、最近のディスカッション、レビュー、または注目される利用事例。
ステップ 3: ユーザーのユースケースに合わせて統合
ユーザーが特定のワークフロー (例: 「法律文書の要約にこれを使いたい」) に言及した場合、そのタスクへの適合性を明示的に評価します:
- コンテキストウィンドウは典型的なインプットを十分に保持できるか。
- モダリティは正しいか。
- ライセンスは想定用途を許可しているか。
- このタスククラスに対する実証済みの強み弱みがあるか。
ステップ 4: 構造化レポート
構造化された評価レポートを出力します:
# 評価: <Model ID>
## OpenRouter カタログスナップショット
- コンテキスト: ...
- 価格: ... / 100万プロンプトトークン、... / 100万コンプリーショントークン
- モダリティ: ...
- サポートパラメータ: ...
## 背景
- プロバイダー: ...
- リリース日: ...
- アーキテクチャ / スケール (既知の場合): ...
- 論文: <見つかった場合はリンク>
## 機能
- ...
## 制限事項と既知の問題
- ...
## ライセンス
- ...
- 商用利用: はい / いいえ / 条件付き
## ベンチマーク (公開レポートされている場合)
- ...
## <ユーザーが述べたユースケース> への適合性
- 評価: 強い / 中程度 / 弱い適合
- 理由: ...
## 推奨事項
- 以下の場合に使用: ...
- 以下の場合は避ける: ...
- 代替案を検討: <OR カタログから 1〜2 つをリスト>
注意事項
- 検証できたこととできなかったことについて正直になります。ベンチマークスコアやモデルカードが見つからない場合は、そう述べてください — 作り出さないでください。
- 外部ソースを URL を明示して引用します。
- モデルが独自のもので、プロバイダーがほとんど詳細を公開していない場合、その旨を述べて OR カタログ + プロバイダードキュメントに依拠します。
- 記憶からベンチマーク数値を引き出さないでください。セッションで WebFetch / ウェブ検索が利用できない場合は、「このセッションでは外部ベンチマーク検索が利用できません — ウェブリサーチを有効にして再実行することをお勧めします」と述べてください。捏造しないでください。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- danielrosehill
- ライセンス
- MIT
- 最終更新
- 2026/4/16
Source: https://github.com/danielrosehill/Claude-Open-Router-Model-Research-Plugin / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。