Anthropic ClaudeLLM・AI開発⭐ リポ 2品質スコア 74/100

or-evaluate-model

ユーザーが単一のOpenRouterモデルについて、ORカタログの範囲を超えた詳細な評価を希望する場合に使用します。モデルカード、論文、ベンチマーク、ライセンス、既知の制限事項などを提供します。「<モデル>を<タスク>で評価して」「<ORモデル>について深掘りして」「<モデル>をOpenRouterを超えて調査して」「<モデル>は<ユースケース>に適していますか」「<ORモデル>について全て教えて」「<モデル>のモデルカードを表示して」といったフレーズで発動します。

description の原文を見る

Use when the user wants a deep evaluation of a single OpenRouter model that goes beyond the OR catalog — model card, paper, benchmarks, license, known limitations. Triggers on phrases like "evaluate <model> for <task>", "deep dive on <OR model>", "research <model> beyond OpenRouter", "is <model> good for <use case>", "tell me everything about <OR model>", "model card for <model>".

SKILL.md 本文

OpenRouter モデルの詳細評価

ユーザーが検討している単一モデルの包括的な評価を実施します。OpenRouter カタログデータと外部リサーチ (Hugging Face モデルカード、原論文、ライセンス、ベンチマークカバレッジ、コミュニティフィードバック) を組み合わせて、ユーザーに自信を持った採用/非採用の判断を提供します。

使用時機

ユーザーがモデルを絞り込んでおり (or-recommend-model または or-compare-models から得たことが多い)、実際のワークフロー、本番環境へのデプロイメント、または既存システムとの比較前に、そのモデルを深く理解したいと考えている場合です。

ワークフロー

ステップ 1: カタログスナップショット

OpenRouter カタログを取得し、対象モデルの完全なレコードを抽出します:

curl -s https://openrouter.ai/api/v1/models -H "Accept: application/json"

以下を記録します: id、context_length、modalities、pricing、supported_parameters、top_provider の情報、description、created date。

ステップ 2: 外部リサーチ

OR カタログを超えて調査を進めます。利用可能なリサーチツール (WebFetch、ウェブ検索、Hugging Face MCP が利用可能な場合) を使用して以下を収集します:

Hugging Face モデルカード — オープンウェイトモデルの場合、huggingface.co/<org>/<repo> から取得します。以下を確認します: 訓練データ、訓練コンピュート、ライセンス、想定用途、制限事項、評価結果。
原論文 — モデルに arXiv 論文がある場合、主要な主張 (アーキテクチャ、訓練規模、主要なベンチマーク) を要約します。
プロバイダー自身の発表 / ドキュメント — 独自のモデル (OpenAI、Anthropic、Google) の場合、公式ページから情報を取得します。
ライセンス — ライセンスと商用利用の制限を明確に記載します。これは特に Llama、Qwen、DeepSeek、Mistral ファミリーにおいて重要です。
ベンチマークカバレッジ — どの公開ベンチマークでテストされているか。MMLU、HumanEval、GSM8K、SWE-bench などの主要スコア — ただし実際に見つけることができるスコアのみを引用し、記憶から引っ張り出さないようにします。
既知の制限事項 / 失敗パターン — モデルが不得意なことは何か。推論の深さ、多言語対応のギャップ、ハルシネーション率、拒否動作。
コミュニティの反応 — 見つけられる場合、最近のディスカッション、レビュー、または注目される利用事例。

ステップ 3: ユーザーのユースケースに合わせて統合

ユーザーが特定のワークフロー (例: 「法律文書の要約にこれを使いたい」) に言及した場合、そのタスクへの適合性を明示的に評価します:

コンテキストウィンドウは典型的なインプットを十分に保持できるか。
モダリティは正しいか。
ライセンスは想定用途を許可しているか。
このタスククラスに対する実証済みの強み弱みがあるか。

ステップ 4: 構造化レポート

構造化された評価レポートを出力します:

# 評価: <Model ID>

## OpenRouter カタログスナップショット
- コンテキスト: ...
- 価格: ... / 100万プロンプトトークン、... / 100万コンプリーショントークン
- モダリティ: ...
- サポートパラメータ: ...

## 背景
- プロバイダー: ...
- リリース日: ...
- アーキテクチャ / スケール (既知の場合): ...
- 論文: <見つかった場合はリンク>

## 機能
- ...

## 制限事項と既知の問題
- ...

## ライセンス
- ...
- 商用利用: はい / いいえ / 条件付き

## ベンチマーク (公開レポートされている場合)
- ...

## <ユーザーが述べたユースケース> への適合性
- 評価: 強い / 中程度 / 弱い適合
- 理由: ...

## 推奨事項
- 以下の場合に使用: ...
- 以下の場合は避ける: ...
- 代替案を検討: <OR カタログから 1〜2 つをリスト>

注意事項

検証できたこととできなかったことについて正直になります。ベンチマークスコアやモデルカードが見つからない場合は、そう述べてください — 作り出さないでください。
外部ソースを URL を明示して引用します。
モデルが独自のもので、プロバイダーがほとんど詳細を公開していない場合、その旨を述べて OR カタログ + プロバイダードキュメントに依拠します。
記憶からベンチマーク数値を引き出さないでください。セッションで WebFetch / ウェブ検索が利用できない場合は、「このセッションでは外部ベンチマーク検索が利用できません — ウェブリサーチを有効にして再実行することをお勧めします」と述べてください。捏造しないでください。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: danielrosehill
リポジトリ: danielrosehill/Claude-Open-Router-Model-Research-Plugin
ライセンス: MIT
最終更新: 2026/4/16

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/danielrosehill/Claude-Open-Router-Model-Research-Plugin / ライセンス: MIT