huggingface-community-evals
ローカルハードウェア上で inspect-ai と lighteval を使用し、Hugging Face Hub モデルの評価を実行します。バックエンドの選定、ローカル GPU での評価、vLLM / Transformers / accelerate の比較検討に活用できます。HF Jobs のオーケストレーション、モデルカードへの PR、`.eval_results` の公開、コミュニティ評価の自動化には対応していません。
description の原文を見る
Run evaluations for Hugging Face Hub models using inspect-ai and lighteval on local hardware. Use for backend selection, local GPU evals, and choosing between vLLM / Transformers / accelerate. Not for HF Jobs orchestration, model-card PRs, .eval_results publication, or community-evals automation.
SKILL.md 本文
概要
このスキルは、ローカルハードウェア上で Hugging Face Hub のモデルに対して評価を実行するためのものです。
対象:
inspect-aiによるローカル推論lightevalによるローカル推論vllm、Hugging Face Transformers、accelerateの選択- スモークテスト、タスク選択、バックエンド フォールバック戦略
対象外:
- Hugging Face Jobs オーケストレーション
- model-card または
model-indexの編集 - README テーブル抽出
- Artificial Analysis インポート
.eval_resultsの生成または公開- PR 作成または community-evals 自動化
ユーザーが同じ評価を Hugging Face Jobs でリモート実行したい場合は、hugging-face-jobs スキルにハンドオフし、このスキルのローカルスクリプトのいずれかを渡してください。
ユーザーが結果をコミュニティ評価ワークフローに公開したい場合は、評価実行を生成した後で停止し、その公開ステップを ~/code/community-evals にハンドオフしてください。
以下のすべてのパスは、このファイルを含むディレクトリからの相対パスです。
どのスクリプトをいつ使うか
| ユースケース | スクリプト |
|---|---|
推論プロバイダー経由で Hub モデルに対するローカル inspect-ai 評価 | scripts/inspect_eval_uv.py |
vllm または Transformers を使用した inspect-ai によるローカル GPU 評価 | scripts/inspect_vllm_uv.py |
vllm または accelerate を使用した lighteval によるローカル GPU 評価 | scripts/lighteval_vllm_uv.py |
| その他のコマンドパターン | examples/USAGE_EXAMPLES.md |
前提条件
- ローカル実行には
uv runを推奨します。 - ゲート/プライベートモデルの場合、
HF_TOKENを設定してください。 - ローカル GPU の実行の場合、開始前に GPU アクセスを確認してください:
uv --version
printenv HF_TOKEN >/dev/null
nvidia-smi
nvidia-smi が利用できない場合は、以下のいずれかを実行してください:
- より軽い プロバイダー支援の評価には
scripts/inspect_eval_uv.pyを使用、または - ユーザーがリモートコンピュートを希望する場合は
hugging-face-jobsスキルにハンドオフ。
コアワークフロー
- 評価フレームワークを選択してください。
- 明示的なタスク制御と inspect-ネイティブワークフローが必要な場合は
inspect-aiを使用してください。 - ベンチマークが自然に lighteval タスク文字列として表現される場合、特にリーダーボードスタイルのタスクの場合は
lightevalを使用してください。
- 明示的なタスク制御と inspect-ネイティブワークフローが必要な場合は
- 推論バックエンドを選択してください。
- サポートされているアーキテクチャでのスループットには
vllmを推奨します。 - 互換性フォールバックとして Hugging Face Transformers (
--backend hf) またはaccelerateを使用してください。
- サポートされているアーキテクチャでのスループットには
- スモークテストから始めてください。
inspect-ai:--limit 10またはそれに似たものを追加してください。lighteval:--max-samples 10を追加してください。
- スモークテストが成功した後にのみスケールアップしてください。
- ユーザーがリモート実行を希望する場合は、同じスクリプト + 引数で
hugging-face-jobsにハンドオフしてください。
クイックスタート
オプション A:ローカル推論プロバイダーパスを使用した inspect-ai
Hugging Face Inference Providers がすでにモデルをサポートしており、ローカルセットアップのオーバーヘッドを最小限にしたい場合に最適です。
uv run scripts/inspect_eval_uv.py \
--model meta-llama/Llama-3.2-1B \
--task mmlu \
--limit 20
以下の場合にこのパスを使用してください:
- クイックなローカルスモークテストが必要な場合
- 直接 GPU 制御が不要な場合
- タスクが既に
inspect-evalsに存在する場合
オプション B:ローカル GPU 上の inspect-ai
Hub モデルを直接ロードする必要がある場合、vllm を使用したい場合、またはサポートされていないアーキテクチャで Transformers にフォールバックしたい場合に最適です。
ローカル GPU:
uv run scripts/inspect_vllm_uv.py \
--model meta-llama/Llama-3.2-1B \
--task gsm8k \
--limit 20
Transformers フォールバック:
uv run scripts/inspect_vllm_uv.py \
--model microsoft/phi-2 \
--task mmlu \
--backend hf \
--trust-remote-code \
--limit 20
オプション C:ローカル GPU 上の lighteval
タスクが自然に lighteval タスク文字列として表現される場合、特に Open LLM Leaderboard スタイルのベンチマークの場合に最適です。
ローカル GPU:
uv run scripts/lighteval_vllm_uv.py \
--model meta-llama/Llama-3.2-3B-Instruct \
--tasks "leaderboard|mmlu|5,leaderboard|gsm8k|5" \
--max-samples 20 \
--use-chat-template
accelerate フォールバック:
uv run scripts/lighteval_vllm_uv.py \
--model microsoft/phi-2 \
--tasks "leaderboard|mmlu|5" \
--backend accelerate \
--trust-remote-code \
--max-samples 20
リモート実行の境界
このスキルは意図的に、ローカル実行とバックエンド選択で終わります。
ユーザーが以下を希望する場合:
- これらのスクリプトを Hugging Face Jobs で実行
- リモートハードウェアを選択
- リモートジョブにシークレットを渡す
- 定期実行をスケジュール
- ジョブを検査/キャンセル/監視
その場合は、hugging-face-jobs スキルに切り替えて、これらのスクリプトおよび選択された引数を渡してください。
タスク選択
inspect-ai の例:
mmlugsm8khellaswagarc_challengetruthfulqawinograndehumaneval
lighteval タスク文字列は suite|task|num_fewshot を使用します:
leaderboard|mmlu|5leaderboard|gsm8k|5leaderboard|arc_challenge|25lighteval|hellaswag|0
複数の lighteval タスクを --tasks でカンマ区切りにできます。
バックエンド選択
- サポートされているアーキテクチャでの高速 GPU 推論には
inspect_vllm_uv.py --backend vllmを推奨します。 vllmがモデルをサポートしていない場合はinspect_vllm_uv.py --backend hfを使用してください。- サポートされているモデルでのスループットには
lighteval_vllm_uv.py --backend vllmを推奨します。 - 互換性フォールバックとして
lighteval_vllm_uv.py --backend accelerateを使用してください。 - Inference Providers がすでにモデルをカバーしており、直接 GPU 制御が不要な場合は
inspect_eval_uv.pyを使用してください。
ハードウェアガイドライン
| モデルサイズ | 推奨ローカルハードウェア |
|---|---|
< 3B | コンシューマー GPU / Apple Silicon / 小規模開発 GPU |
3B - 13B | より強力なローカル GPU |
13B+ | 高メモリローカル GPU または hugging-face-jobs にハンドオフ |
スモークテストの場合、より安価なローカル実行に加えて --limit または --max-samples の使用を推奨します。
トラブルシューティング
- CUDA または vLLM OOM:
--batch-sizeを削減--gpu-memory-utilizationを削減- スモークテストのため、より小さいモデルに切り替え
- 必要に応じて
hugging-face-jobsにハンドオフ
vllmでサポートされていないモデル:inspect-aiでは--backend hfに切り替えlightevalでは--backend accelerateに切り替え
- ゲート/プライベートリポジトリアクセス失敗:
HF_TOKENを確認
- カスタムモデルコード必須:
--trust-remote-codeを追加
例
参照してください:
examples/USAGE_EXAMPLES.mdのローカルコマンドパターンscripts/inspect_eval_uv.pyscripts/inspect_vllm_uv.pyscripts/lighteval_vllm_uv.py
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- huggingface
- リポジトリ
- huggingface/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/huggingface/skills / ライセンス: Apache-2.0
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。