Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

huggingface-community-evals

Name: huggingface-community-evals
Author: huggingface

ローカルハードウェア上で inspect-ai と lighteval を使用し、Hugging Face Hub モデルの評価を実行します。バックエンドの選定、ローカル GPU での評価、vLLM / Transformers / accelerate の比較検討に活用できます。HF Jobs のオーケストレーション、モデルカードへの PR、`.eval_results` の公開、コミュニティ評価の自動化には対応していません。

description の原文を見る

Run evaluations for Hugging Face Hub models using inspect-ai and lighteval on local hardware. Use for backend selection, local GPU evals, and choosing between vLLM / Transformers / accelerate. Not for HF Jobs orchestration, model-card PRs, .eval_results publication, or community-evals automation.

SKILL.md 本文

概要

このスキルは、ローカルハードウェア上で Hugging Face Hub のモデルに対して評価を実行するためのものです。

対象：

inspect-ai によるローカル推論
lighteval によるローカル推論
vllm、Hugging Face Transformers、accelerate の選択
スモークテスト、タスク選択、バックエンドフォールバック戦略

対象外：

Hugging Face Jobs オーケストレーション
model-card または model-index の編集
README テーブル抽出
Artificial Analysis インポート
.eval_results の生成または公開
PR 作成または community-evals 自動化

ユーザーが同じ評価を Hugging Face Jobs でリモート実行したい場合は、hugging-face-jobs スキルにハンドオフし、このスキルのローカルスクリプトのいずれかを渡してください。

ユーザーが結果をコミュニティ評価ワークフローに公開したい場合は、評価実行を生成した後で停止し、その公開ステップを ~/code/community-evals にハンドオフしてください。

以下のすべてのパスは、このファイルを含むディレクトリからの相対パスです。

どのスクリプトをいつ使うか

ユースケース	スクリプト
推論プロバイダー経由で Hub モデルに対するローカル `inspect-ai` 評価	`scripts/inspect_eval_uv.py`
`vllm` または Transformers を使用した `inspect-ai` によるローカル GPU 評価	`scripts/inspect_vllm_uv.py`
`vllm` または `accelerate` を使用した `lighteval` によるローカル GPU 評価	`scripts/lighteval_vllm_uv.py`
その他のコマンドパターン	`examples/USAGE_EXAMPLES.md`

前提条件

ローカル実行には uv run を推奨します。
ゲート/プライベートモデルの場合、HF_TOKEN を設定してください。
ローカル GPU の実行の場合、開始前に GPU アクセスを確認してください：

uv --version
printenv HF_TOKEN >/dev/null
nvidia-smi

nvidia-smi が利用できない場合は、以下のいずれかを実行してください：

より軽いプロバイダー支援の評価には scripts/inspect_eval_uv.py を使用、または
ユーザーがリモートコンピュートを希望する場合は hugging-face-jobs スキルにハンドオフ。

コアワークフロー

評価フレームワークを選択してください。
- 明示的なタスク制御と inspect-ネイティブワークフローが必要な場合は inspect-ai を使用してください。
- ベンチマークが自然に lighteval タスク文字列として表現される場合、特にリーダーボードスタイルのタスクの場合は lighteval を使用してください。
推論バックエンドを選択してください。
- サポートされているアーキテクチャでのスループットには vllm を推奨します。
- 互換性フォールバックとして Hugging Face Transformers (--backend hf) または accelerate を使用してください。
スモークテストから始めてください。
- inspect-ai：--limit 10 またはそれに似たものを追加してください。
- lighteval：--max-samples 10 を追加してください。
スモークテストが成功した後にのみスケールアップしてください。
ユーザーがリモート実行を希望する場合は、同じスクリプト + 引数で hugging-face-jobs にハンドオフしてください。

クイックスタート

オプション A：ローカル推論プロバイダーパスを使用した inspect-ai

Hugging Face Inference Providers がすでにモデルをサポートしており、ローカルセットアップのオーバーヘッドを最小限にしたい場合に最適です。

uv run scripts/inspect_eval_uv.py \
  --model meta-llama/Llama-3.2-1B \
  --task mmlu \
  --limit 20

以下の場合にこのパスを使用してください：

クイックなローカルスモークテストが必要な場合
直接 GPU 制御が不要な場合
タスクが既に inspect-evals に存在する場合

オプション B：ローカル GPU 上の inspect-ai

Hub モデルを直接ロードする必要がある場合、vllm を使用したい場合、またはサポートされていないアーキテクチャで Transformers にフォールバックしたい場合に最適です。

ローカル GPU：

uv run scripts/inspect_vllm_uv.py \
  --model meta-llama/Llama-3.2-1B \
  --task gsm8k \
  --limit 20

Transformers フォールバック：

uv run scripts/inspect_vllm_uv.py \
  --model microsoft/phi-2 \
  --task mmlu \
  --backend hf \
  --trust-remote-code \
  --limit 20

オプション C：ローカル GPU 上の lighteval

タスクが自然に lighteval タスク文字列として表現される場合、特に Open LLM Leaderboard スタイルのベンチマークの場合に最適です。

ローカル GPU：

uv run scripts/lighteval_vllm_uv.py \
  --model meta-llama/Llama-3.2-3B-Instruct \
  --tasks "leaderboard|mmlu|5,leaderboard|gsm8k|5" \
  --max-samples 20 \
  --use-chat-template

accelerate フォールバック：

uv run scripts/lighteval_vllm_uv.py \
  --model microsoft/phi-2 \
  --tasks "leaderboard|mmlu|5" \
  --backend accelerate \
  --trust-remote-code \
  --max-samples 20

リモート実行の境界

このスキルは意図的に、ローカル実行とバックエンド選択で終わります。

ユーザーが以下を希望する場合：

これらのスクリプトを Hugging Face Jobs で実行
リモートハードウェアを選択
リモートジョブにシークレットを渡す
定期実行をスケジュール
ジョブを検査/キャンセル/監視

その場合は、hugging-face-jobs スキルに切り替えて、これらのスクリプトおよび選択された引数を渡してください。

タスク選択

inspect-ai の例：

mmlu
gsm8k
hellaswag
arc_challenge
truthfulqa
winogrande
humaneval

lighteval タスク文字列は suite|task|num_fewshot を使用します：

leaderboard|mmlu|5
leaderboard|gsm8k|5
leaderboard|arc_challenge|25
lighteval|hellaswag|0

複数の lighteval タスクを --tasks でカンマ区切りにできます。

バックエンド選択

サポートされているアーキテクチャでの高速 GPU 推論には inspect_vllm_uv.py --backend vllm を推奨します。
vllm がモデルをサポートしていない場合は inspect_vllm_uv.py --backend hf を使用してください。
サポートされているモデルでのスループットには lighteval_vllm_uv.py --backend vllm を推奨します。
互換性フォールバックとして lighteval_vllm_uv.py --backend accelerate を使用してください。
Inference Providers がすでにモデルをカバーしており、直接 GPU 制御が不要な場合は inspect_eval_uv.py を使用してください。

ハードウェアガイドライン

モデルサイズ	推奨ローカルハードウェア
`< 3B`	コンシューマー GPU / Apple Silicon / 小規模開発 GPU
`3B - 13B`	より強力なローカル GPU
`13B+`	高メモリローカル GPU または `hugging-face-jobs` にハンドオフ

スモークテストの場合、より安価なローカル実行に加えて --limit または --max-samples の使用を推奨します。

トラブルシューティング

CUDA または vLLM OOM：
- --batch-size を削減
- --gpu-memory-utilization を削減
- スモークテストのため、より小さいモデルに切り替え
- 必要に応じて hugging-face-jobs にハンドオフ
vllm でサポートされていないモデル：
- inspect-ai では --backend hf に切り替え
- lighteval では --backend accelerate に切り替え
ゲート/プライベートリポジトリアクセス失敗：
- HF_TOKEN を確認
カスタムモデルコード必須：
- --trust-remote-code を追加

例

参照してください：

examples/USAGE_EXAMPLES.md のローカルコマンドパターン
scripts/inspect_eval_uv.py
scripts/inspect_vllm_uv.py
scripts/lighteval_vllm_uv.py

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: huggingface
リポジトリ: huggingface/skills
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/huggingface/skills / ライセンス: Apache-2.0

huggingface-community-evals

SKILL.md 本文

概要

どのスクリプトをいつ使うか

前提条件

コアワークフロー

クイックスタート

オプション A：ローカル推論プロバイダーパスを使用した inspect-ai

オプション B：ローカル GPU 上の inspect-ai

オプション C：ローカル GPU 上の lighteval

リモート実行の境界

タスク選択

バックエンド選択

ハードウェアガイドライン

トラブルシューティング

例

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui