Anthropic ClaudeLLM・AI開発⭐ リポ 7品質スコア 64/100
Ground Truth Management
AI評価用のグラウンドトゥルースデータセットの作成、管理、保守に関する包括的なガイドです。アノテーション、品質管理、バージョニングを含めた、データセットの構築から運用まで一連のプロセスをカバーしています。このガイドを通じて、AIモデルの性能を正確に評価するための信頼性の高いデータセットを構築・維持できます。
description の原文を見る
Comprehensive guide to creating, managing, and maintaining ground truth datasets for AI evaluation including annotation, quality control, and versioning
SKILL.md 本文
注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。
グラウンドトゥルース管理
グラウンドトゥルースとは
定義: 評価用の正解データ - AI性能を測定するためのゴールドスタンダードとして機能する、人間が検証したデータです。
例
質問: "フランスの首都は何ですか?"
グラウンドトゥルース: "パリ"
AIの回答: "パリ" → 正解 ✓
AIの回答: "リヨン" → 不正解 ✗
グラウンドトゥルースが重要な理由
客観的に精度を測定する
グラウンドトゥルースなし: 「この回答は良さそうだ」(主観的)
グラウンドトゥルースあり: 「精度: 85%」(客観的)
モデルの訓練と検証
訓練: グラウンドトゥルースの例から学習
検証: グラウンドトゥルースのテストセット上で性能を測定
回帰テスト
変更前: 精度 90%
変更後: 精度 85%
→ 回帰が検出された!
ベンチマーキング
モデルA: グラウンドトゥルース上で精度 90%
モデルB: グラウンドトゥルース上で精度 85%
→ モデルAの方が優れている
グラウンドトゥルースの種類
完全一致: 単一の正解
{
"question": "2+2は?",
"answer"
...
詳細情報
- 作者
- majiayu000
- ライセンス
- 不明
- 最終更新
- 2026/5/9
Source: https://github.com/majiayu000/claude-skill-registry-data / ライセンス: 未指定