Anthropic ClaudeLLM・AI開発⭐ リポ 2品質スコア 64/100

evaluating-llms-harness

60以上の学術ベンチマーク（MMLU、HumanEval、GSM8K、TruthfulQAなど）でLLMを評価できます。モデルの品質測定、複数モデルの比較、学術結果の報告、トレーニング進捗の追跡に活用できます。EleutherAIやHuggingFaceなど業界の主要機関が採用する標準的なツールです。HuggingFace、vLLM、各種APIに対応しています。

description の原文を見る

Evaluates LLMs across 60+ academic benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Use when benchmarking model quality, comparing models, reporting academic results, or tracking training progress. Industry standard used by EleutherAI, HuggingFace, and major labs. Supports HuggingFace, vLLM, APIs.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

lm-evaluation-harness - LLMベンチマーキング

クイックスタート

lm-evaluation-harnessは、標準化されたプロンプトとメトリクスを使用して、60以上のアカデミックベンチマークでLLMを評価します。

インストール:

pip install lm-eval

任意のHuggingFaceモデルを評価:

lm_eval --model hf \
  --model_args pretrained=meta-llama/Llama-2-7b-hf \
  --tasks mmlu,gsm8k,hellaswag \
  --device cuda:0 \
  --batch_size 8

利用可能なタスクを表示:

lm_eval --tasks list

一般的なワークフロー

ワークフロー1: 標準ベンチマーク評価

コアベンチマーク(MMLU、GSM8K、HumanEval)でモデルを評価します。

このチェックリストをコピーしてください:

ベンチマーク評価:
- [ ] ステップ1: ベンチマークスイートの選択
- [ ] ステップ2: モデルの構成
- [ ] ステップ3: 評価の実行
- [ ] ステ

...

全文を GitHub の原本で見る →リポジトリ

詳細情報

作者: daeha76
リポジトリ: daeha76/RianFriends
ライセンス: 不明
最終更新: 2026/4/6

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/daeha76/RianFriends / ライセンス: 未指定