Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

llm-evaluation

LLMアプリケーションに対して、自動メトリクス、人間によるフィードバック、ベンチマーキングを組み合わせた包括的な評価戦略を実装できます。LLMの性能テスト、AIアプリケーションの品質測定、評価フレームワークの構築が必要な際に活用します。

description の原文を見る

Implement comprehensive evaluation strategies for LLM applications using automated metrics, human feedback, and benchmarking. Use when testing LLM performance, measuring AI application quality, or establishing evaluation frameworks.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

LLM評価

自動メトリクスからヒューマン評価、A/Bテストまで、LLMアプリケーションの包括的な評価戦略をマスターしてください。

このスキルを使用する場合

  • LLMアプリケーションのパフォーマンスを体系的に測定する
  • 異なるモデルまたはプロンプトを比較する
  • デプロイメント前のパフォーマンス低下を検出する
  • プロンプト変更による改善を検証する
  • 本番システムへの信頼を構築する
  • ベースラインの確立と時間経過に伴う進捗を追跡する
  • 予期しないモデル動作をデバッグする

コア評価タイプ

1. 自動メトリクス

計算されたスコアを使用した高速で反復可能でスケーラブルな評価。

テキスト生成:

  • BLEU: N-グラム重複度(翻訳)
  • ROUGE: リコール志向(要約)
  • METEOR: セマンティック類似度
  • BERTScore: 埋め込みベースの類似度
  • パープレキシティ: 言語モデルの信頼度

分類:

  • 精度: 正解の割合
  • 適合率/再現率/F1: クラス固有のパフォーマンス
  • 混同行列: エラーパターン
  • AUC-ROC: ランキング品質

検索(RAG):

  • MRR: 平均相互ランク
  • NDCG: 正規化

...

詳細情報

作者
synqing
リポジトリ
synqing/K1.node1
ライセンス
不明
最終更新
2026/1/8

Source: https://github.com/synqing/K1.node1 / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: synqing · synqing/K1.node1 · ライセンス: ライセンス未確認