llm-evals
LLMの評価構築、プロンプトのテスト、プロンプトバージョンの比較、プロンプトの最適化、LLM出力のCIゲート設定、またはユーザーがeval、ベンチマーク、プロンプトテスト、回帰検出、LLM応答のスコアリングについて言及している場合に使用します。また、「プロンプトをテストしたい」「このプロンプトはより良いか」「evalスイート」「プロンプト最適化」といった発言があった場合にも使用します。
description の原文を見る
Use when building LLM evaluations, testing prompts, comparing prompt versions, optimizing prompts, setting up CI gates for LLM outputs, or when the user mentions eval, benchmark, prompt testing, regression detection, or scoring LLM responses. Also use when someone says "test my prompt", "is this prompt better", "eval suite", or "prompt optimization".
SKILL.md 本文
LLM Evals
概要
/Users/rshah/evals にある evals フレームワークは、統合されたLLM評価・最適化エンジンです。統計的厳密性を持ってプロンプト品質を測定し、回帰を検出し、プロンプトを自動最適化し、CI でのデプロイメントをゲートするために使用します。
基本原則: 直感ではなく、N 回のトライアルと統計テストで評価します。
いつ使うのか
- LLM プロンプトやパイプラインの評価を設定する場合
- 2つのプロンプトバージョンを比較して、どちらが優れているかを確認する場合
- プロンプトを自動的に最適化する場合
- 悪いプロンプト変更をブロックするCI ゲートを追加する場合
- カスタムまたは組み込みメトリクスを使用してLLM出力をスコアリングする場合
- RAG パイプライン、エージェント、または非同期LLM ワークフローをテストする場合
クイックリファレンス
インストール
cd /Users/rshah/evals
pip install -e . # または: uv sync
CLI コマンド
| コマンド | 目的 |
|---|---|
evals run suite.yaml | 評価スイートを実行 |
| `eva |
...
詳細情報
- 作者
- rachittshah
- ライセンス
- 不明
- 最終更新
- 2026/3/3
Source: https://github.com/rachittshah/optimize-anything / ライセンス: 未指定