汎用LLM・AI開発⭐ リポ 14品質スコア 71/100

llm-evals

LLMの評価構築、プロンプトのテスト、プロンプトバージョンの比較、プロンプトの最適化、LLM出力のCIゲート設定、またはユーザーがeval、ベンチマーク、プロンプトテスト、回帰検出、LLM応答のスコアリングについて言及している場合に使用します。また、「プロンプトをテストしたい」「このプロンプトはより良いか」「evalスイート」「プロンプト最適化」といった発言があった場合にも使用します。

description の原文を見る

Use when building LLM evaluations, testing prompts, comparing prompt versions, optimizing prompts, setting up CI gates for LLM outputs, or when the user mentions eval, benchmark, prompt testing, regression detection, or scoring LLM responses. Also use when someone says "test my prompt", "is this prompt better", "eval suite", or "prompt optimization".

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

LLM Evals

概要

/Users/rshah/evals にある evals フレームワークは、統合されたLLM評価・最適化エンジンです。統計的厳密性を持ってプロンプト品質を測定し、回帰を検出し、プロンプトを自動最適化し、CI でのデプロイメントをゲートするために使用します。

基本原則: 直感ではなく、N 回のトライアルと統計テストで評価します。

いつ使うのか

LLM プロンプトやパイプラインの評価を設定する場合
2つのプロンプトバージョンを比較して、どちらが優れているかを確認する場合
プロンプトを自動的に最適化する場合
悪いプロンプト変更をブロックするCI ゲートを追加する場合
カスタムまたは組み込みメトリクスを使用してLLM出力をスコアリングする場合
RAG パイプライン、エージェント、または非同期LLM ワークフローをテストする場合

クイックリファレンス

インストール

cd /Users/rshah/evals
pip install -e .   # または: uv sync

CLI コマンド

コマンド	目的
`evals run suite.yaml`	評価スイートを実行
`eva

...

全文を GitHub の原本で見る →リポジトリ

詳細情報

作者: rachittshah
リポジトリ: rachittshah/optimize-anything
ライセンス: 不明
最終更新: 2026/3/3

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/rachittshah/optimize-anything / ライセンス: 未指定