Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 0品質スコア 70/100

Evals

コード・モデル・ヒューマングレーダーを用いた客観的な評価メトリクスをpass@k/pass^k スコアリングで実施できます。エージェントの評価、ベンチマーク、動作検証、回帰テスト、機能テスト、評価実行、モデル比較、プロンプト比較、判定者の作成、ユースケース作成、結果表示、タスク失敗分析、スイート管理、トランスクリプト取得、トライアル実行などの場面で活用できます。

description の原文を見る

Objective eval metrics via code/model/human graders with pass@k/pass^k scoring. USE WHEN eval, evaluate, test agent, benchmark, verify behavior, regression test, capability test, run eval, compare models, compare prompts, create judge, create use case, view results, failure to task, suite manager, transcript capture, trial runner.

SKILL.md 本文

カスタマイズ

実行前に、以下の場所でユーザーカスタマイズを確認してください: ~/.pai/PAI/USER/SKILLCUSTOMIZATIONS/Evals/

このディレクトリが存在する場合、そこで見つかった PREFERENCES.md、設定、またはリソースを読み込んで適用してください。これらはデフォルト動作をオーバーライドします。ディレクトリが存在しない場合は、スキルのデフォルト設定で処理を続行してください。

🚨 必須: 音声通知 (アクション実行前に必須)

このスキルが呼び出された時、他のことをする前にこの通知を送信する必要があります。

  1. 音声通知を送信:

    curl -s -X POST http://localhost:8888/notify \
      -H "Content-Type: application/json" \
      -d '{"message": "Running the WORKFLOWNAME workflow in the Evals skill to ACTION"}' \
      > /dev/null 2>&1 &
    
  2. テキスト通知を出力:

    Running the **WorkflowName** workflow in the **Evals** skill to ACTION...
    

これはオプションではありません。スキルが呼び出されたらこの curl コマンドを即座に実行してください。

Evals - AIエージェント評価フレームワーク

Anthropic の「Demystifying Evals for AI Agents」(2026年1月)に基づいた包括的なエージェント評価システムです。

主な特徴: 単一の出力ではなく、エージェントワークフロー(トランスクリプト、ツール呼び出し、マルチターン会話)を評価します。


発動タイミング

  • 「evals を実行」「このエージェントをテスト」「評価」「品質確認」「ベンチマーク」
  • 「リグレッションテスト」「機能テスト」
  • 変更を通じたエージェントの動作比較
  • デプロイ前のエージェントワークフロー検証
  • ALGORITHM ISC 行の確認
  • 失敗から新しい評価タスクを作成

核心的な概念

3つの評価者タイプ

タイプ長所短所用途
コードベース高速、低コスト、決定論的、再現可能脆弱、微妙なニュアンスに欠けるテスト、状態確認、ツール検証
モデルベース柔軟、ニュアンスを捉える、スケーラブル非決定論的、高コスト品質ルーブリック、アサーション、比較
人間ゴールドスタンダード、主観性に対応高コスト、低速キャリブレーション、スポット確認、A/B テスト

評価タイプ

タイプ合格目標目的
能力約70%ストレッチゴール、改善の可能性測定
リグレッション約99%品質ゲート、後退の検出

主要メトリクス

  • pass@k: k回のトライアル中、少なくとも1回成功する確率(能力を測定)
  • pass^k: k回のトライアル全て成功する確率(一貫性/信頼性を測定)

ワークフロー ルーティング

リクエストパターンルート先
評価実行、スイート実行、テスト実行、ベンチマークWorkflows/RunEval.md
モデル比較、A/B テストWorkflows/CompareModels.md
プロンプト比較、プロンプト検証Workflows/ComparePrompts.md
評価者作成、モデル評価者Workflows/CreateJudge.md
ユースケース作成、新規評価、テストケース作成Workflows/CreateUseCase.md
結果表示、評価結果、スコア、合格率Workflows/ViewResults.md

CLI クイックリファレンス

トリガーツール
スイート実行Tools/AlgorithmBridge.ts
失敗をログTools/FailureToTask.ts log
失敗を変換Tools/FailureToTask.ts convert-all
スイート作成Tools/SuiteManager.ts create
飽和確認Tools/SuiteManager.ts check-saturation

クイックリファレンス

CLI コマンド

# 評価スイートを実行
bun run ~/.pai/skills/Utilities/Evals/Tools/AlgorithmBridge.ts -s <suite>

# 後で変換するために失敗をログ
bun run ~/.pai/skills/Utilities/Evals/Tools/FailureToTask.ts log "description" -c category -s severity

# 失敗をテストタスクに変換
bun run ~/.pai/skills/Utilities/Evals/Tools/FailureToTask.ts convert-all

# スイートを管理
bun run ~/.pai/skills/Utilities/Evals/Tools/SuiteManager.ts create <name> -t capability -d "description"
bun run ~/.pai/skills/Utilities/Evals/Tools/SuiteManager.ts list
bun run ~/.pai/skills/Utilities/Evals/Tools/SuiteManager.ts check-saturation <name>
bun run ~/.pai/skills/Utilities/Evals/Tools/SuiteManager.ts graduate <name>

ALGORITHM 統合

Evals は ALGORITHM ISC 行の検証方法です:

# 評価を実行して ISC 行を更新
bun run ~/.pai/skills/Utilities/Evals/Tools/AlgorithmBridge.ts -s regression-core -r 3 -u

ISC 行は評価検証を指定できます:

| # | 理想的な状態 | 検証 |
|---|---------|------|
| 1 | 認証バイパスが修正済み | eval:auth-security |
| 2 | すべてのテストが合格 | eval:regression |

利用可能な評価者

コードベース(高速、決定論的)

評価者用途
string_match完全な部分文字列マッチング
regex_matchパターンマッチング
binary_testsテストファイルを実行
static_analysisリント、型チェック、セキュリティスキャン
state_check実行後のシステム状態を確認
tool_calls特定のツールが呼び出されたことを確認

モデルベース(ニュアンス重視)

評価者用途
llm_rubric詳細なルーブリックに対してスコアリング
natural_language_assertアサーションの確認
pairwise_comparisonリファレンスとの比較(位置スワップ含む)

ドメインパターン

一般的なエージェントタイプに対する事前設定された評価者スタック:

ドメイン主要評価者
codingbinary_tests + static_analysis + tool_calls + llm_rubric
conversationalllm_rubric + natural_language_assert + state_check
researchllm_rubric + natural_language_assert + tool_calls
computer_usestate_check + tool_calls + llm_rubric

完全な設定については Data/DomainPatterns.yaml を参照してください。


タスクスキーマ (YAML)

task:
  id: "fix-auth-bypass_1"
  description: "パスワードが空の場合の認証バイパスを修正"
  type: regression  # または capability
  domain: coding

  graders:
    - type: binary_tests
      required: [test_empty_pw.py]
      weight: 0.30

    - type: tool_calls
      weight: 0.20
      params:
        sequence: [read_file, edit_file, run_tests]

    - type: llm_rubric
      weight: 0.50
      params:
        rubric: prompts/security_review.md

  trials: 3
  pass_threshold: 0.75

リソース インデックス

リソース目的
Types/index.tsコア型定義
Graders/CodeBased/決定論的評価者
Graders/ModelBased/LLMベースの評価者
Tools/TranscriptCapture.tsエージェント軌跡をキャプチャ
Tools/TrialRunner.tspass@k を使用したマルチトライアル実行
Tools/SuiteManager.tsスイート管理と飽和度管理
Tools/FailureToTask.ts失敗をテストタスクに変換
Tools/AlgorithmBridge.tsALGORITHM 統合
Data/DomainPatterns.yamlドメイン固有の評価者設定

主要原則 (Anthropic より)

  1. 実際の失敗20〜50件から開始 - 過度に考えず、実際に発生したものを取得
  2. 曖昧でないタスク - 2人の専門家が同じ判定に達するべき
  3. バランスの取れた問題セット - 「すべき」と「すべきでない」の両方をテスト
  4. 出力を採点、パスは採点しない - 有効で創造的なソリューションにペナルティを与えない
  5. LLM 評価者をキャリブレーション - 人間の専門家の判定に対して
  6. 定期的にトランスクリプトをチェック - 評価者が正しく機能しているか確認
  7. 飽和度を監視 - 95%以上に達したらリグレッションに段階を上げる
  8. インフラを早期に構築 - 評価は新しいモデルの導入速度を形作ります

関連項目

  • ALGORITHM: Evals は検証方法です
  • Science: Evals は科学的方法を実装
  • Browser: ビジュアル検証評価者向け

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
virtualian
リポジトリ
virtualian/pai
ライセンス
MIT
最終更新
2026/5/11

Source: https://github.com/virtualian/pai / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: virtualian · virtualian/pai · ライセンス: MIT