/hub:eval — エージェント結果の評価

セッションのすべてのエージェント結果をランク付けします。メトリクスベースの評価(コマンド実行)、LLM ジャッジ(差分比較)、またはハイブリッドに対応しています。

使い方

/hub:eval                           # 設定済みの条件で最新セッションを評価
/hub:eval 20260317-143022           # 特定のセッションを評価
/hub:eval --judge                   # LLM ジャッジモードを強制(メトリクス設定を無視)

動作内容

メトリクスモード(eval コマンドが設定されている場合)

各エージェントのワークツリーで評価コマンドを実行します:

python {skill_path}/scripts/result_ranker.py \
  --session {session-id} \
  --eval-cmd "{eval_cmd}" \
  --metric {metric} --direction {direction}

出力例:

RANK  AGENT       METRIC      DELTA      FILES
1     agent-2     142ms       -38ms      2
2     agent-1     165ms       -15ms      3
3     agent-3     190ms       +10ms      1

Winner: agent-2 (142ms)

LLM ジャッジモード(eval コマンドなし、または --judge フラグの場合)

各エージェントについて:

差分を取得: git diff {base_branch}...{agent_branch}
エージェントの結果ポストを読む: .agenthub/board/results/agent-{i}-result.md
すべての差分を比較し、以下の項目でランク付け:
- 正確性 — タスクを解決しているか?
- シンプルさ — 変更行数が少ないほど良い(正確性が同等の場合)
- 品質 — クリーンな実行、良い構造、リグレッションなし

理由付きでランキングを提示します。

コンテンツタスク向けの LLM ジャッジ出力例:

RANK  AGENT    VERDICT                               WORD COUNT
1     agent-1  Strong narrative, clear CTA            1480
2     agent-3  Good data points, weak intro           1520
3     agent-2  Generic tone, no differentiation       1350

Winner: agent-1 (strongest narrative arc and call-to-action)

ハイブリッドモード

最初にメトリクス評価を実行
トップエージェントが互いに 10% 以内の場合、LLM ジャッジを使用してタイブレーク
メトリクスと定性的なランキングの両方を提示

評価後

セッション状態を更新:

python {skill_path}/scripts/session_manager.py --update {session-id} --state evaluating

ユーザーに通知:
- ウィナーがハイライトされたランク付き結果
- 次のステップ: /hub:merge でウィナーをマージ
- または /hub:merge {session-id} --agent {winner} で明示的に指定

使用するタイミング

関数型プログラミングまたは特定のドメインタスク向けに評価が必要な場合にこのスキルを使用します。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

eval

SKILL.md 本文