Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 14品質スコア 71/100

llm-evals

LLMの評価構築、プロンプトのテスト、プロンプトバージョンの比較、プロンプトの最適化、LLM出力のCIゲート設定、またはユーザーがeval、ベンチマーク、プロンプトテスト、回帰検出、LLM応答のスコアリングについて言及している場合に使用します。また、「プロンプトをテストしたい」「このプロンプトはより良いか」「evalスイート」「プロンプト最適化」といった発言があった場合にも使用します。

description の原文を見る

Use when building LLM evaluations, testing prompts, comparing prompt versions, optimizing prompts, setting up CI gates for LLM outputs, or when the user mentions eval, benchmark, prompt testing, regression detection, or scoring LLM responses. Also use when someone says "test my prompt", "is this prompt better", "eval suite", or "prompt optimization".

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

LLM Evals

概要

/Users/rshah/evals にある evals フレームワークは、統合されたLLM評価・最適化エンジンです。統計的厳密性を持ってプロンプト品質を測定し、回帰を検出し、プロンプトを自動最適化し、CI でのデプロイメントをゲートするために使用します。

基本原則: 直感ではなく、N 回のトライアルと統計テストで評価します。

いつ使うのか

  • LLM プロンプトやパイプラインの評価を設定する場合
  • 2つのプロンプトバージョンを比較して、どちらが優れているかを確認する場合
  • プロンプトを自動的に最適化する場合
  • 悪いプロンプト変更をブロックするCI ゲートを追加する場合
  • カスタムまたは組み込みメトリクスを使用してLLM出力をスコアリングする場合
  • RAG パイプライン、エージェント、または非同期LLM ワークフローをテストする場合

クイックリファレンス

インストール

cd /Users/rshah/evals
pip install -e .   # または: uv sync

CLI コマンド

コマンド目的
evals run suite.yaml評価スイートを実行
`eva

...

詳細情報

作者
rachittshah
リポジトリ
rachittshah/optimize-anything
ライセンス
不明
最終更新
2026/3/3

Source: https://github.com/rachittshah/optimize-anything / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: rachittshah · rachittshah/optimize-anything · ライセンス: ライセンス未確認