Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 2品質スコア 64/100

eval

AgentHub セッションのエージェント結果をメトリクスまたは LLM ジャッジで評価・ランク付けします。

description の原文を見る

Evaluate and rank agent results by metric or LLM judge for an AgentHub session.

SKILL.md 本文

/hub:eval — エージェント結果の評価

セッションのすべてのエージェント結果をランク付けします。メトリクスベースの評価(コマンド実行)、LLM ジャッジ(差分比較)、またはハイブリッドに対応しています。

使い方

/hub:eval                           # 設定済みの条件で最新セッションを評価
/hub:eval 20260317-143022           # 特定のセッションを評価
/hub:eval --judge                   # LLM ジャッジモードを強制(メトリクス設定を無視)

動作内容

メトリクスモード(eval コマンドが設定されている場合)

各エージェントのワークツリーで評価コマンドを実行します:

python {skill_path}/scripts/result_ranker.py \
  --session {session-id} \
  --eval-cmd "{eval_cmd}" \
  --metric {metric} --direction {direction}

出力例:

RANK  AGENT       METRIC      DELTA      FILES
1     agent-2     142ms       -38ms      2
2     agent-1     165ms       -15ms      3
3     agent-3     190ms       +10ms      1

Winner: agent-2 (142ms)

LLM ジャッジモード(eval コマンドなし、または --judge フラグの場合)

各エージェントについて:

  1. 差分を取得: git diff {base_branch}...{agent_branch}
  2. エージェントの結果ポストを読む: .agenthub/board/results/agent-{i}-result.md
  3. すべての差分を比較し、以下の項目でランク付け:
    • 正確性 — タスクを解決しているか?
    • シンプルさ — 変更行数が少ないほど良い(正確性が同等の場合)
    • 品質 — クリーンな実行、良い構造、リグレッションなし

理由付きでランキングを提示します。

コンテンツタスク向けの LLM ジャッジ出力例:

RANK  AGENT    VERDICT                               WORD COUNT
1     agent-1  Strong narrative, clear CTA            1480
2     agent-3  Good data points, weak intro           1520
3     agent-2  Generic tone, no differentiation       1350

Winner: agent-1 (strongest narrative arc and call-to-action)

ハイブリッドモード

  1. 最初にメトリクス評価を実行
  2. トップエージェントが互いに 10% 以内の場合、LLM ジャッジを使用してタイブレーク
  3. メトリクスと定性的なランキングの両方を提示

評価後

  1. セッション状態を更新:
python {skill_path}/scripts/session_manager.py --update {session-id} --state evaluating
  1. ユーザーに通知:
    • ウィナーがハイライトされたランク付き結果
    • 次のステップ: /hub:merge でウィナーをマージ
    • または /hub:merge {session-id} --agent {winner} で明示的に指定

使用するタイミング

  • 関数型プログラミングまたは特定のドメインタスク向けに評価が必要な場合にこのスキルを使用します。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
JantonioFC
リポジトリ
JantonioFC/skillsbank
ライセンス
MIT
最終更新
2026/5/9

Source: https://github.com/JantonioFC/skillsbank / ライセンス: MIT

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: JantonioFC · JantonioFC/skillsbank · ライセンス: MIT