Phoenix Evals

AI/LLM アプリケーション向けの評価器を構築します。コードファーストで始まり、ニュアンスの抽出には LLM を、人間による検証を実施します。

クイックリファレンス

タスク	ファイル
セットアップ	`setup-python`, `setup-typescript`
評価対象を決定	`evaluators-overview`
ジャッジモデルを選択	`fundamentals-model-selection`
事前構築された評価器を使用	`evaluators-pre-built`
コード評価器を構築	`evaluators-code-python`, `evaluators-code-typescript`
LLM 評価器を構築	`evaluators-llm-python`, `evaluators-llm-typescript`, `evaluators-custom-templates`
DataFrame をバッチ評価	`evaluate-dataframe-python`
実験を実行	`experiments-running-python`, `experiments-running-typescript`
データセットを作成	`experiments-datasets-python`, `experiments-datasets-typescript`
合成データを生成	`experiments-synthetic-python`, `experiments-synthetic-typescript`
評価器の精度を検証	`validation`, `validation-evaluators-python`, `validation-evaluators-typescript`
レビュー用トレースをサンプリング	`observe-sampling-python`, `observe-sampling-typescript`
エラーを分析	`error-analysis`, `error-analysis-multi-turn`, `axial-coding`
RAG 評価	`evaluators-rag`
よくある間違いを回避	`common-mistakes-python`, `fundamentals-anti-patterns`
本番運用	`production-overview`, `production-guardrails`, `production-continuous`

ゼロから始める: observe-tracing-setup → error-analysis → axial-coding → evaluators-overview

評価器を構築: fundamentals → common-mistakes-python → evaluators-{code|llm}-{python|typescript} → validation-evaluators-{python|typescript}

RAG システム: evaluators-rag → evaluators-code-* (retrieval) → evaluators-llm-* (faithfulness)

本番運用: production-overview → production-guardrails → production-continuous

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ