Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 2品質スコア 64/100

eval

AgentHub セッションのエージェント結果をメトリクスまたは LLM ジャッジで評価・ランク付けします。

description の原文を見る

Evaluate and rank agent results by metric or LLM judge for an AgentHub session.

SKILL.md 本文

/hub:eval — エージェント結果の評価

セッションのすべてのエージェント結果をランク付けします。メトリクスベースの評価(コマンド実行)、LLM ジャッジ(差分比較)、またはハイブリッドに対応しています。

使い方

/hub:eval                           # 設定済みの条件で最新セッションを評価
/hub:eval 20260317-143022           # 特定のセッションを評価
/hub:eval --judge                   # LLM ジャッジモードを強制(メトリクス設定を無視)

動作内容

メトリクスモード(eval コマンドが設定されている場合)

各エージェントのワークツリーで評価コマンドを実行します:

python {skill_path}/scripts/result_ranker.py \
  --session {session-id} \
  --eval-cmd "{eval_cmd}" \
  --metric {metric} --direction {direction}

出力例:

RANK  AGENT       METRIC      DELTA      FILES
1     agent-2     142ms       -38ms      2
2     agent-1     165ms       -15ms      3
3     agent-3     190ms       +10ms      1

Winner: agent-2 (142ms)

LLM ジャッジモード(eval コマンドなし、または --judge フラグの場合)

各エージェントについて:

  1. 差分を取得: git diff {base_branch}...{agent_branch}
  2. エージェントの結果ポストを読む: .agenthub/board/results/agent-{i}-result.md
  3. すべての差分を比較し、以下の項目でランク付け:
    • 正確性 — タスクを解決しているか?
    • シンプルさ — 変更行数が少ないほど良い(正確性が同等の場合)
    • 品質 — クリーンな実行、良い構造、リグレッションなし

理由付きでランキングを提示します。

コンテンツタスク向けの LLM ジャッジ出力例:

RANK  AGENT    VERDICT                               WORD COUNT
1     agent-1  Strong narrative, clear CTA            1480
2     agent-3  Good data points, weak intro           1520
3     agent-2  Generic tone, no differentiation       1350

Winner: agent-1 (strongest narrative arc and call-to-action)

ハイブリッドモード

  1. 最初にメトリクス評価を実行
  2. トップエージェントが互いに 10% 以内の場合、LLM ジャッジを使用してタイブレーク
  3. メトリクスと定性的なランキングの両方を提示

評価後

  1. セッション状態を更新:
python {skill_path}/scripts/session_manager.py --update {session-id} --state evaluating
  1. ユーザーに通知:
    • ウィナーがハイライトされたランク付き結果
    • 次のステップ: /hub:merge でウィナーをマージ
    • または /hub:merge {session-id} --agent {winner} で明示的に指定

使用するタイミング

  • 関数型プログラミングまたは特定のドメインタスク向けに評価が必要な場合にこのスキルを使用します。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
JantonioFC
リポジトリ
JantonioFC/skillsbank
ライセンス
MIT
最終更新
2026/5/9

Source: https://github.com/JantonioFC/skillsbank / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: JantonioFC · JantonioFC/skillsbank · ライセンス: MIT