Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 2品質スコア 64/100

evaluating-llms-harness

60以上の学術ベンチマーク(MMLU、HumanEval、GSM8K、TruthfulQAなど)でLLMを評価できます。モデルの品質測定、複数モデルの比較、学術結果の報告、トレーニング進捗の追跡に活用できます。EleutherAIやHuggingFaceなど業界の主要機関が採用する標準的なツールです。HuggingFace、vLLM、各種APIに対応しています。

description の原文を見る

Evaluates LLMs across 60+ academic benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Use when benchmarking model quality, comparing models, reporting academic results, or tracking training progress. Industry standard used by EleutherAI, HuggingFace, and major labs. Supports HuggingFace, vLLM, APIs.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

lm-evaluation-harness - LLMベンチマーキング

クイックスタート

lm-evaluation-harnessは、標準化されたプロンプトとメトリクスを使用して、60以上のアカデミックベンチマークでLLMを評価します。

インストール:

pip install lm-eval

任意のHuggingFaceモデルを評価:

lm_eval --model hf \
  --model_args pretrained=meta-llama/Llama-2-7b-hf \
  --tasks mmlu,gsm8k,hellaswag \
  --device cuda:0 \
  --batch_size 8

利用可能なタスクを表示:

lm_eval --tasks list

一般的なワークフロー

ワークフロー1: 標準ベンチマーク評価

コアベンチマーク(MMLU、GSM8K、HumanEval)でモデルを評価します。

このチェックリストをコピーしてください:

ベンチマーク評価:
- [ ] ステップ1: ベンチマークスイートの選択
- [ ] ステップ2: モデルの構成
- [ ] ステップ3: 評価の実行
- [ ] ステ

...

詳細情報

作者
daeha76
リポジトリ
daeha76/RianFriends
ライセンス
不明
最終更新
2026/4/6

Source: https://github.com/daeha76/RianFriends / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: daeha76 · daeha76/RianFriends · ライセンス: ライセンス未確認