Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 7品質スコア 64/100

Ground Truth Management

AI評価用のグラウンドトゥルースデータセットの作成、管理、保守に関する包括的なガイドです。アノテーション、品質管理、バージョニングを含めた、データセットの構築から運用まで一連のプロセスをカバーしています。このガイドを通じて、AIモデルの性能を正確に評価するための信頼性の高いデータセットを構築・維持できます。

description の原文を見る

Comprehensive guide to creating, managing, and maintaining ground truth datasets for AI evaluation including annotation, quality control, and versioning

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

グラウンドトゥルース管理

グラウンドトゥルースとは

定義: 評価用の正解データ - AI性能を測定するためのゴールドスタンダードとして機能する、人間が検証したデータです。

質問: "フランスの首都は何ですか?"
グラウンドトゥルース: "パリ"

AIの回答: "パリ" → 正解 ✓
AIの回答: "リヨン" → 不正解 ✗

グラウンドトゥルースが重要な理由

客観的に精度を測定する

グラウンドトゥルースなし: 「この回答は良さそうだ」(主観的)
グラウンドトゥルースあり: 「精度: 85%」(客観的)

モデルの訓練と検証

訓練: グラウンドトゥルースの例から学習
検証: グラウンドトゥルースのテストセット上で性能を測定

回帰テスト

変更前: 精度 90%
変更後: 精度 85%
→ 回帰が検出された!

ベンチマーキング

モデルA: グラウンドトゥルース上で精度 90%
モデルB: グラウンドトゥルース上で精度 85%
→ モデルAの方が優れている

グラウンドトゥルースの種類

完全一致: 単一の正解

{
  "question": "2+2は?",
  "answer"

...

詳細情報

作者
majiayu000
リポジトリ
majiayu000/claude-skill-registry-data
ライセンス
不明
最終更新
2026/5/9

Source: https://github.com/majiayu000/claude-skill-registry-data / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: majiayu000 · majiayu000/claude-skill-registry-data · ライセンス: ライセンス未確認