Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

huggingface-community-evals

ローカルハードウェア上で inspect-ai と lighteval を使用し、Hugging Face Hub モデルの評価を実行します。バックエンドの選定、ローカル GPU での評価、vLLM / Transformers / accelerate の比較検討に活用できます。HF Jobs のオーケストレーション、モデルカードへの PR、`.eval_results` の公開、コミュニティ評価の自動化には対応していません。

description の原文を見る

Run evaluations for Hugging Face Hub models using inspect-ai and lighteval on local hardware. Use for backend selection, local GPU evals, and choosing between vLLM / Transformers / accelerate. Not for HF Jobs orchestration, model-card PRs, .eval_results publication, or community-evals automation.

SKILL.md 本文

概要

このスキルは、ローカルハードウェア上で Hugging Face Hub のモデルに対して評価を実行するためのものです

対象:

  • inspect-ai によるローカル推論
  • lighteval によるローカル推論
  • vllm、Hugging Face Transformers、accelerate の選択
  • スモークテスト、タスク選択、バックエンド フォールバック戦略

対象外:

  • Hugging Face Jobs オーケストレーション
  • model-card または model-index の編集
  • README テーブル抽出
  • Artificial Analysis インポート
  • .eval_results の生成または公開
  • PR 作成または community-evals 自動化

ユーザーが同じ評価を Hugging Face Jobs でリモート実行したい場合は、hugging-face-jobs スキルにハンドオフし、このスキルのローカルスクリプトのいずれかを渡してください。

ユーザーが結果をコミュニティ評価ワークフローに公開したい場合は、評価実行を生成した後で停止し、その公開ステップを ~/code/community-evals にハンドオフしてください。

以下のすべてのパスは、このファイルを含むディレクトリからの相対パスです。

どのスクリプトをいつ使うか

ユースケーススクリプト
推論プロバイダー経由で Hub モデルに対するローカル inspect-ai 評価scripts/inspect_eval_uv.py
vllm または Transformers を使用した inspect-ai によるローカル GPU 評価scripts/inspect_vllm_uv.py
vllm または accelerate を使用した lighteval によるローカル GPU 評価scripts/lighteval_vllm_uv.py
その他のコマンドパターンexamples/USAGE_EXAMPLES.md

前提条件

  • ローカル実行には uv run を推奨します。
  • ゲート/プライベートモデルの場合、HF_TOKEN を設定してください。
  • ローカル GPU の実行の場合、開始前に GPU アクセスを確認してください:
uv --version
printenv HF_TOKEN >/dev/null
nvidia-smi

nvidia-smi が利用できない場合は、以下のいずれかを実行してください:

  • より軽い プロバイダー支援の評価には scripts/inspect_eval_uv.py を使用、または
  • ユーザーがリモートコンピュートを希望する場合は hugging-face-jobs スキルにハンドオフ。

コアワークフロー

  1. 評価フレームワークを選択してください。
    • 明示的なタスク制御と inspect-ネイティブワークフローが必要な場合は inspect-ai を使用してください。
    • ベンチマークが自然に lighteval タスク文字列として表現される場合、特にリーダーボードスタイルのタスクの場合は lighteval を使用してください。
  2. 推論バックエンドを選択してください。
    • サポートされているアーキテクチャでのスループットには vllm を推奨します。
    • 互換性フォールバックとして Hugging Face Transformers (--backend hf) または accelerate を使用してください。
  3. スモークテストから始めてください。
    • inspect-ai--limit 10 またはそれに似たものを追加してください。
    • lighteval--max-samples 10 を追加してください。
  4. スモークテストが成功した後にのみスケールアップしてください。
  5. ユーザーがリモート実行を希望する場合は、同じスクリプト + 引数で hugging-face-jobs にハンドオフしてください。

クイックスタート

オプション A:ローカル推論プロバイダーパスを使用した inspect-ai

Hugging Face Inference Providers がすでにモデルをサポートしており、ローカルセットアップのオーバーヘッドを最小限にしたい場合に最適です。

uv run scripts/inspect_eval_uv.py \
  --model meta-llama/Llama-3.2-1B \
  --task mmlu \
  --limit 20

以下の場合にこのパスを使用してください:

  • クイックなローカルスモークテストが必要な場合
  • 直接 GPU 制御が不要な場合
  • タスクが既に inspect-evals に存在する場合

オプション B:ローカル GPU 上の inspect-ai

Hub モデルを直接ロードする必要がある場合、vllm を使用したい場合、またはサポートされていないアーキテクチャで Transformers にフォールバックしたい場合に最適です。

ローカル GPU:

uv run scripts/inspect_vllm_uv.py \
  --model meta-llama/Llama-3.2-1B \
  --task gsm8k \
  --limit 20

Transformers フォールバック:

uv run scripts/inspect_vllm_uv.py \
  --model microsoft/phi-2 \
  --task mmlu \
  --backend hf \
  --trust-remote-code \
  --limit 20

オプション C:ローカル GPU 上の lighteval

タスクが自然に lighteval タスク文字列として表現される場合、特に Open LLM Leaderboard スタイルのベンチマークの場合に最適です。

ローカル GPU:

uv run scripts/lighteval_vllm_uv.py \
  --model meta-llama/Llama-3.2-3B-Instruct \
  --tasks "leaderboard|mmlu|5,leaderboard|gsm8k|5" \
  --max-samples 20 \
  --use-chat-template

accelerate フォールバック:

uv run scripts/lighteval_vllm_uv.py \
  --model microsoft/phi-2 \
  --tasks "leaderboard|mmlu|5" \
  --backend accelerate \
  --trust-remote-code \
  --max-samples 20

リモート実行の境界

このスキルは意図的に、ローカル実行とバックエンド選択で終わります。

ユーザーが以下を希望する場合:

  • これらのスクリプトを Hugging Face Jobs で実行
  • リモートハードウェアを選択
  • リモートジョブにシークレットを渡す
  • 定期実行をスケジュール
  • ジョブを検査/キャンセル/監視

その場合は、hugging-face-jobs スキルに切り替えて、これらのスクリプトおよび選択された引数を渡してください。

タスク選択

inspect-ai の例:

  • mmlu
  • gsm8k
  • hellaswag
  • arc_challenge
  • truthfulqa
  • winogrande
  • humaneval

lighteval タスク文字列は suite|task|num_fewshot を使用します:

  • leaderboard|mmlu|5
  • leaderboard|gsm8k|5
  • leaderboard|arc_challenge|25
  • lighteval|hellaswag|0

複数の lighteval タスクを --tasks でカンマ区切りにできます。

バックエンド選択

  • サポートされているアーキテクチャでの高速 GPU 推論には inspect_vllm_uv.py --backend vllm を推奨します。
  • vllm がモデルをサポートしていない場合は inspect_vllm_uv.py --backend hf を使用してください。
  • サポートされているモデルでのスループットには lighteval_vllm_uv.py --backend vllm を推奨します。
  • 互換性フォールバックとして lighteval_vllm_uv.py --backend accelerate を使用してください。
  • Inference Providers がすでにモデルをカバーしており、直接 GPU 制御が不要な場合は inspect_eval_uv.py を使用してください。

ハードウェアガイドライン

モデルサイズ推奨ローカルハードウェア
< 3Bコンシューマー GPU / Apple Silicon / 小規模開発 GPU
3B - 13Bより強力なローカル GPU
13B+高メモリローカル GPU または hugging-face-jobs にハンドオフ

スモークテストの場合、より安価なローカル実行に加えて --limit または --max-samples の使用を推奨します。

トラブルシューティング

  • CUDA または vLLM OOM:
    • --batch-size を削減
    • --gpu-memory-utilization を削減
    • スモークテストのため、より小さいモデルに切り替え
    • 必要に応じて hugging-face-jobs にハンドオフ
  • vllm でサポートされていないモデル:
    • inspect-ai では --backend hf に切り替え
    • lighteval では --backend accelerate に切り替え
  • ゲート/プライベートリポジトリアクセス失敗:
    • HF_TOKEN を確認
  • カスタムモデルコード必須:
    • --trust-remote-code を追加

参照してください:

  • examples/USAGE_EXAMPLES.md のローカルコマンドパターン
  • scripts/inspect_eval_uv.py
  • scripts/inspect_vllm_uv.py
  • scripts/lighteval_vllm_uv.py

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
huggingface
リポジトリ
huggingface/skills
ライセンス
Apache-2.0
最終更新
不明

Source: https://github.com/huggingface/skills / ライセンス: Apache-2.0

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: huggingface · huggingface/skills · ライセンス: Apache-2.0