Anthropic ClaudeLLM・AI開発⭐ リポ 2品質スコア 64/100
evaluating-llms-harness
60以上の学術ベンチマーク(MMLU、HumanEval、GSM8K、TruthfulQAなど)でLLMを評価できます。モデルの品質測定、複数モデルの比較、学術結果の報告、トレーニング進捗の追跡に活用できます。EleutherAIやHuggingFaceなど業界の主要機関が採用する標準的なツールです。HuggingFace、vLLM、各種APIに対応しています。
description の原文を見る
Evaluates LLMs across 60+ academic benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Use when benchmarking model quality, comparing models, reporting academic results, or tracking training progress. Industry standard used by EleutherAI, HuggingFace, and major labs. Supports HuggingFace, vLLM, APIs.
SKILL.md 本文
注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。
lm-evaluation-harness - LLMベンチマーキング
クイックスタート
lm-evaluation-harnessは、標準化されたプロンプトとメトリクスを使用して、60以上のアカデミックベンチマークでLLMを評価します。
インストール:
pip install lm-eval
任意のHuggingFaceモデルを評価:
lm_eval --model hf \
--model_args pretrained=meta-llama/Llama-2-7b-hf \
--tasks mmlu,gsm8k,hellaswag \
--device cuda:0 \
--batch_size 8
利用可能なタスクを表示:
lm_eval --tasks list
一般的なワークフロー
ワークフロー1: 標準ベンチマーク評価
コアベンチマーク(MMLU、GSM8K、HumanEval)でモデルを評価します。
このチェックリストをコピーしてください:
ベンチマーク評価:
- [ ] ステップ1: ベンチマークスイートの選択
- [ ] ステップ2: モデルの構成
- [ ] ステップ3: 評価の実行
- [ ] ステ
...
詳細情報
- 作者
- daeha76
- リポジトリ
- daeha76/RianFriends
- ライセンス
- 不明
- 最終更新
- 2026/4/6
Source: https://github.com/daeha76/RianFriends / ライセンス: 未指定