eval
AgentHub セッションのエージェント結果をメトリクスまたは LLM ジャッジで評価・ランク付けします。
description の原文を見る
Evaluate and rank agent results by metric or LLM judge for an AgentHub session.
SKILL.md 本文
/hub:eval — エージェント結果の評価
セッションのすべてのエージェント結果をランク付けします。メトリクスベースの評価(コマンド実行)、LLM ジャッジ(差分比較)、またはハイブリッドに対応しています。
使い方
/hub:eval # 設定済みの条件で最新セッションを評価
/hub:eval 20260317-143022 # 特定のセッションを評価
/hub:eval --judge # LLM ジャッジモードを強制(メトリクス設定を無視)
動作内容
メトリクスモード(eval コマンドが設定されている場合)
各エージェントのワークツリーで評価コマンドを実行します:
python {skill_path}/scripts/result_ranker.py \
--session {session-id} \
--eval-cmd "{eval_cmd}" \
--metric {metric} --direction {direction}
出力例:
RANK AGENT METRIC DELTA FILES
1 agent-2 142ms -38ms 2
2 agent-1 165ms -15ms 3
3 agent-3 190ms +10ms 1
Winner: agent-2 (142ms)
LLM ジャッジモード(eval コマンドなし、または --judge フラグの場合)
各エージェントについて:
- 差分を取得:
git diff {base_branch}...{agent_branch} - エージェントの結果ポストを読む:
.agenthub/board/results/agent-{i}-result.md - すべての差分を比較し、以下の項目でランク付け:
- 正確性 — タスクを解決しているか?
- シンプルさ — 変更行数が少ないほど良い(正確性が同等の場合)
- 品質 — クリーンな実行、良い構造、リグレッションなし
理由付きでランキングを提示します。
コンテンツタスク向けの LLM ジャッジ出力例:
RANK AGENT VERDICT WORD COUNT
1 agent-1 Strong narrative, clear CTA 1480
2 agent-3 Good data points, weak intro 1520
3 agent-2 Generic tone, no differentiation 1350
Winner: agent-1 (strongest narrative arc and call-to-action)
ハイブリッドモード
- 最初にメトリクス評価を実行
- トップエージェントが互いに 10% 以内の場合、LLM ジャッジを使用してタイブレーク
- メトリクスと定性的なランキングの両方を提示
評価後
- セッション状態を更新:
python {skill_path}/scripts/session_manager.py --update {session-id} --state evaluating
- ユーザーに通知:
- ウィナーがハイライトされたランク付き結果
- 次のステップ:
/hub:mergeでウィナーをマージ - または
/hub:merge {session-id} --agent {winner}で明示的に指定
使用するタイミング
- 関数型プログラミングまたは特定のドメインタスク向けに評価が必要な場合にこのスキルを使用します。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- JantonioFC
- ライセンス
- MIT
- 最終更新
- 2026/5/9
Source: https://github.com/JantonioFC/skillsbank / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。