Anthropic ClaudeLLM・AI開発⭐ リポ 2品質スコア 64/100

evaluating-code-models

HumanEval、MBPP、MultiPL-Eなど15以上のベンチマークを用いて、コード生成モデルを評価します。pass@kメトリクスで性能を測定できます。コードモデルのベンチマーク実施、コーディング能力の比較、多言語対応のテスト、コード生成品質の測定が必要な場合に利用してください。BigCodeプロジェクトの業界標準仕様で、HuggingFaceのリーダーボードでも採用されています。

description の原文を見る

Evaluates code generation models across HumanEval, MBPP, MultiPL-E, and 15+ benchmarks with pass@k metrics. Use when benchmarking code models, comparing coding abilities, testing multi-language support, or measuring code generation quality. Industry standard from BigCode Project used by HuggingFace leaderboards.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

BigCode Evaluation Harness - コードモデルベンチマーク

クイックスタート

BigCode Evaluation HarnessはHumanEval、MBPP、MultiPL-E(18言語)を含む15以上のベンチマーク全体でコード生成モデルを評価します。

インストール:

git clone https://github.com/bigcode-project/bigcode-evaluation-harness.git
cd bigcode-evaluation-harness
pip install -e .
accelerate config

HumanEvalで評価する:

accelerate launch main.py \
  --model bigcode/starcoder2-7b \
  --tasks humaneval \
  --max_length_generation 512 \
  --temperature 0.2 \
  --n_samples 20 \
  --batch_size 10 \
  --allow_code_execution \
  --save_generations

利用可能なタスクを表示:

py

...

全文を GitHub の原本で見る →リポジトリ

詳細情報

作者: daeha76
リポジトリ: daeha76/RianFriends
ライセンス: 不明
最終更新: 2026/4/6

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/daeha76/RianFriends / ライセンス: 未指定