Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

llm-evaluation

LLMアプリケーションに対して、自動メトリクス、人間によるフィードバック、ベンチマーキングを組み合わせた包括的な評価戦略を実装できます。LLMの性能テスト、AIアプリケーションの品質測定、評価フレームワークの構築が必要な際に活用します。

description の原文を見る

Implement comprehensive evaluation strategies for LLM applications using automated metrics, human feedback, and benchmarking. Use when testing LLM performance, measuring AI application quality, or establishing evaluation frameworks.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

LLM評価

自動メトリクスからヒューマン評価、A/Bテストまで、LLMアプリケーションの包括的な評価戦略をマスターしてください。

このスキルを使用する場合

LLMアプリケーションのパフォーマンスを体系的に測定する
異なるモデルまたはプロンプトを比較する
デプロイメント前のパフォーマンス低下を検出する
プロンプト変更による改善を検証する
本番システムへの信頼を構築する
ベースラインの確立と時間経過に伴う進捗を追跡する
予期しないモデル動作をデバッグする

コア評価タイプ

1. 自動メトリクス

計算されたスコアを使用した高速で反復可能でスケーラブルな評価。

テキスト生成:

BLEU: N-グラム重複度（翻訳）
ROUGE: リコール志向（要約）
METEOR: セマンティック類似度
BERTScore: 埋め込みベースの類似度
パープレキシティ: 言語モデルの信頼度

分類:

精度: 正解の割合
適合率/再現率/F1: クラス固有のパフォーマンス
混同行列: エラーパターン
AUC-ROC: ランキング品質

検索（RAG）:

MRR: 平均相互ランク
NDCG: 正規化

...

全文を GitHub の原本で見る →リポジトリ

詳細情報

作者: synqing
リポジトリ: synqing/K1.node1
ライセンス: 不明
最終更新: 2026/1/8

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/synqing/K1.node1 / ライセンス: 未指定