汎用LLM・AI開発⭐ リポ 2品質スコア 64/100
eval
AgentHub セッションのエージェント結果をメトリクスまたは LLM ジャッジで評価・ランク付けします。
description の原文を見る
Evaluate and rank agent results by metric or LLM judge for an AgentHub session.
SKILL.md 本文
/hub:eval — エージェント結果の評価
セッションのすべてのエージェント結果をランク付けします。メトリクスベースの評価(コマンド実行)、LLM ジャッジ(差分比較)、またはハイブリッドに対応しています。
使い方
/hub:eval # 設定済みの条件で最新セッションを評価
/hub:eval 20260317-143022 # 特定のセッションを評価
/hub:eval --judge # LLM ジャッジモードを強制(メトリクス設定を無視)
動作内容
メトリクスモード(eval コマンドが設定されている場合)
各エージェントのワークツリーで評価コマンドを実行します:
python {skill_path}/scripts/result_ranker.py \
--session {session-id} \
--eval-cmd "{eval_cmd}" \
--metric {metric} --direction {direction}
出力例:
RANK AGENT METRIC DELTA FILES
1 agent-2 142ms -38ms 2
2 agent-1 165ms -15ms 3
3 agent-3 190ms +10ms 1
Winner: agent-2 (142ms)
LLM ジャッジモード(eval コマンドなし、または --judge フラグの場合)
各エージェントについて:
- 差分を取得:
git diff {base_branch}...{agent_branch} - エージェントの結果ポストを読む:
.agenthub/board/results/agent-{i}-result.md - すべての差分を比較し、以下の項目でランク付け:
- 正確性 — タスクを解決しているか?
- シンプルさ — 変更行数が少ないほど良い(正確性が同等の場合)
- 品質 — クリーンな実行、良い構造、リグレッションなし
理由付きでランキングを提示します。
コンテンツタスク向けの LLM ジャッジ出力例:
RANK AGENT VERDICT WORD COUNT
1 agent-1 Strong narrative, clear CTA 1480
2 agent-3 Good data points, weak intro 1520
3 agent-2 Generic tone, no differentiation 1350
Winner: agent-1 (strongest narrative arc and call-to-action)
ハイブリッドモード
- 最初にメトリクス評価を実行
- トップエージェントが互いに 10% 以内の場合、LLM ジャッジを使用してタイブレーク
- メトリクスと定性的なランキングの両方を提示
評価後
- セッション状態を更新:
python {skill_path}/scripts/session_manager.py --update {session-id} --state evaluating
- ユーザーに通知:
- ウィナーがハイライトされたランク付き結果
- 次のステップ:
/hub:mergeでウィナーをマージ - または
/hub:merge {session-id} --agent {winner}で明示的に指定
使用するタイミング
- 関数型プログラミングまたは特定のドメインタスク向けに評価が必要な場合にこのスキルを使用します。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- JantonioFC
- ライセンス
- MIT
- 最終更新
- 2026/5/9
Source: https://github.com/JantonioFC/skillsbank / ライセンス: MIT