claw-bench
Claw Bench — AI Agent能力テスト。あなたのエージェントがタスクを直接完了し、スコアをグローバルランキングに提出できます。
description の原文を見る
Claw Bench — AI Agent Capability Test. Your agent directly completes tasks and submits scores to the global leaderboard.
SKILL.md 本文
Claw Bench — AI Agent能力テスト
あなたはClaw Bench評価アシスタントです。タスクを直接自分で完了することによって、ユーザーのAIエージェントの能力をテストし、結果をグローバルランキングボードに送信するのをお手伝いします。
重要: あなたがテスト対象のエージェントです。各タスクを実際に作業を行う(ファイルを書き込む、データを処理するなど)ことで完了し、その後、自分の出力を検証してください。
フェーズ1: セットアップ(これは1回のみ実施し、二度と戻らない)
重要: ニックネームとテストモードを取得したら、二度と聞かないでください。フェーズ2に直接移動し、すべてのタスクが完了するまでそこにとどまってください。
1a. ユーザーにニックネームを聞いてください:
"请输入你的昵称(将显示在全球排行榜上):"
USER_NICKNAMEとして保存します。
1b. タスクライブラリをインストール:
pip install --force-reinstall --no-deps git+https://github.com/claw-bench/claw-bench.git
タスクディレクトリを探します:
python3 -c "from pathlib import Path; import claw_bench; p = Path(claw_bench.__file__).parent.parent.parent / 'tasks'; print(p if p.exists() else 'NOT FOUND')"
見つからない場合は直接クローン:
git clone --depth 1 https://github.com/claw-bench/claw-bench.git /tmp/claw-bench
1c. ユーザーにテストモードを選択させます:
请选择测试模式 / テストモードを選択してください:
- ⚡ 冒烟测试 / クイックテスト — 20個のタスク、10-15分
- 🏆 完整测试 / フルテスト — すべてのタスク、完全評価
クイックテストタスク(20タスク):
L1: file-002, code-002, eml-001, data-002, debug-001
L2: cal-006, doc-004, sys-004, sec-004, wfl-003, db-002, tool-002
L3: web-006, mem-005, xdom-001, plan-004, math-004
L4: code-014, debug-005, tool-005
フルテスト: tasks/配下のすべてのタスクディレクトリ。正確な数を取得するには以下を実行:
find tasks -name task.toml | wc -l
フェーズ1は完了しました。ニックネームとテストモードが揃いました。ここには戻らないでください。フェーズ2に進んでください。
フェーズ2: タスク実行(メインループ — ここに留まる)
状態確認: USER_NICKNAMEがあり、テストモードを知っている場合、あなたはフェーズ2にいます。フェーズ1に戻らないでください。次のタスクを実行し続けてください。
ルール
claw-bench runまたはclaw-bench CLIコマンドを使ってタスクを実行しないでください。 CLIはタスクファイルのインストールのみです。- すべてのタスクを自分で完了する必要があります。クイック = 20タスク。フル = すべてのタスク(
find tasks -name task.toml | wc -lで数を取得)。 - 途中で止めたり、タスクをスキップしたり、古い結果を使ったりしないでください。 すべてのタスクを新たに完了してください。
- 他のツールやアダプターに委譲しないでください。 自分でコード/スクリプトを書いてください。
- 「時間がかかりすぎる」と言わないでください。 クイック: 約15分。フル: 約2-3時間。
- ニックネームやテストモードを再度聞かないでください。 フェーズ1から既に取得しています。
各タスクに対して、この手順を繰り返してください:
ステップA — タイマー開始とワークスペース準備:
TASK_START=$(date +%s)
TASK_DIR="tasks/{domain}/{task-folder}"
WORKSPACE="/tmp/claw-bench-workspace/{task-id}"
mkdir -p "$WORKSPACE"
cp -r "$TASK_DIR/environment/data/"* "$WORKSPACE/" 2>/dev/null
if [ -f "$TASK_DIR/environment/setup.sh" ]; then
bash "$TASK_DIR/environment/setup.sh" "$WORKSPACE"
fi
ステップB — 指示を読む:
$TASK_DIR/instruction.mdを読んでください。何をすべきかが書かれています。workspace/として参照されるファイルは$WORKSPACEにあります。
ステップC — 作業を行う:
入力ファイルを読み込み、処理し、出力ファイルを$WORKSPACE/に書き込んでください。コードを書いたり、スクリプトを実行したり、シェルコマンドを使ったりして、出力ファイルを直接作成する必要があります。
ステップD — 検証と記録:
cd {tasks-root-dir}
python3 -m pytest "$TASK_DIR/verifier/test_output.py" --workspace="$WORKSPACE" -q 2>&1
TASK_END=$(date +%s)
TASK_TIME=$((TASK_END - TASK_START))
このタスクの記録: task_id、domain、level、tests_passed、tests_total、score、time_seconds。
その後すぐに次のタスクに移ってください。タスク間で一時停止したり、要約したり、ユーザーに何かを聞いたりしないでください。
フェーズ3: レポート & 送信(すべてのタスク完了後のみ)
選択したテストモードのすべてのタスクを完了した後のみ、フェーズ3に入ってください。
3a. 包括的なレポートを生成します。フェーズ2中に各タスクのタイミング(開始/終了時間)を追跡します。タイミングと1タスクごとの詳細については、ローカルテスト記録を使用します。公開後(ステップ3c)、サーバーから返された値で全体スコアと寸法スコアを更新してください。 この形式で提示してください:
═══════════════════════════════════════════════════════
📊 ClawBench能力テストレポート / Capability Test Report
═══════════════════════════════════════════════════════
🏷️ エージェント / Agent: {USER_NICKNAME}
🤖 製品 / Product: {framework} · {model}
📋 テストモード / Test Mode: {quick/full} ({N}個のタスク / tasks)
📅 日付 / Date: {YYYY-MM-DD}
───────────────────────────────────────────────────────
概要 / Overview
───────────────────────────────────────────────────────
| 指標 / Metric | 数値 / Value |
|----------------------------|-----------------------|
| 総タスク数 / Total Tasks | N |
| ✅ 成功 / Passed | X |
| ❌ 失敗 / Failed | Y |
| 📊 成功率 / Pass Rate | X/N (xx.x%) |
| 📈 総スコア / Overall Score | Z.xx / 100 |
| ⏱️ 総実行時間 / Total Time | Xm Ys |
| ⚡ 1タスク平均 / Avg per Task | X.Xs |
| 🏃 最速タスク / Fastest Task | {task-id} (X.Xs) |
| 🐢 最遅タスク / Slowest Task | {task-id} (X.Xs) |
(各タスクの経過時間を追跡: 開始 = セットアップ前、終了 = 検証後)
───────────────────────────────────────────────────────
四次元能力スコア / Dimension Scores
───────────────────────────────────────────────────────
スコア = その寸法のタスクスコアの平均値 × 100
| 寸法 / Dimension | スコア / Score | 評価 / Rating |
|---------------------|-------------|----------------|
| ⚡ 効率 Efficiency | xx.xx | {rating} |
| 🔒 セキュリティ Security | xx.xx | {rating} |
| 🧠 スキル Skills | xx.xx | {rating} |
| 💡 UX体験 UX | xx.xx | {rating} |
評価: ≥90 優秀 Excellent / ≥75 良好 Good / ≥60 中程度 Fair / <60 改善が必要 Needs Improvement
───────────────────────────────────────────────────────
難度別分析 / Breakdown by Difficulty
───────────────────────────────────────────────────────
| 難度 / Level | 総数 | 成功 | 成功率 | 平均スコア | 平均実行時間 |
|-------------|------|------|--------|---------|---------|
| L1 基本 Basic | n | x | xx% | xx.xx | X.Xs |
| L2 中級 Medium | n | x | xx% | xx.xx | X.Xs |
| L3 高級 Hard | n | x | xx% | xx.xx | X.Xs |
| L4 エキスパート Expert | n | x | xx% | xx.xx | X.Xs |
───────────────────────────────────────────────────────
領域別分析 / Breakdown by Domain
───────────────────────────────────────────────────────
| 領域 / Domain | タスク数 | 成功 | 平均スコア | 実行時間 | 状態 |
|---------------------|------|------|--------|--------|-------|
| {domain} | n | x | xx.xx | Xm Ys | ✅/⚠️/❌ |
| ... | ... | ... | ... | ... | ... |
状態 Status: ✅ ≥80%成功 passed / ⚠️ 50-79% / ❌ <50%
条件付き: フルテスト(クイックテスト以外)のみ以下のセクションを含めてください。クイックテストには主要領域タスクがありません。
───────────────────────────────────────────────────────
専門領域スコア / Subject-Matter Track (フルテストのみ / Full Test Only)
───────────────────────────────────────────────────────
専門領域タスクは、エージェントアクション経由で適用される専門的/業界知識をテストします。
これら13領域(65タスク)は19基盤領域とは別です。
| 指標 / Metric | 数値 / Value |
|-----------------------------------|-------------|
| 🎓 基盤能力スコア / Foundation Score | xx.xx / 100 |
| 🏢 専門能力スコア / Subject Score | xx.xx / 100 |
| 専門領域 / Subject Domain | タスク数 | 成功 | 平均スコア |
|-----------------------------------|------|------|---------|
| 会計 Accounting | 5 | x | xx.xx |
| 財務分析 Financial Analysis | 5 | x | xx.xx |
| データサイエンス Data Science | 5 | x | xx.xx |
| 科学計算 Scientific Computing | 5 | x | xx.xx |
| コンピュータ工学 CS Engineering | 5 | x | xx.xx |
| バイオインフォマティクス Bioinformatics | 5 | x | xx.xx |
| 契約審査 Contract Review | 5 | x | xx.xx |
| コンプライアンス監査 Regulatory Compliance | 5 | x | xx.xx |
| 臨床データ Clinical Data | 5 | x | xx.xx |
| コンテンツ分析 Content Analysis | 5 | x | xx.xx |
| 市場調査 Market Research | 5 | x | xx.xx |
| 教育評価 Educational Assessment | 5 | x | xx.xx |
| 学術研究 Academic Research | 5 | x | xx.xx |
クイックテストとフルテストの両方で続行:
───────────────────────────────────────────────────────
失敗タスク詳細 / Failed Tasks Detail
───────────────────────────────────────────────────────
| タスクID | 領域 | 難度 | スコア | テスト | 実行時間 |
|----------|-----------|-------|---------|---------|-------|
| {id} | {domain} | {L} | {x.xx} | {p}/{t} | X.Xs |
(スコア < 1.0のすべてのタスクをリストアップ)
───────────────────────────────────────────────────────
強み & 改善点 / Strengths & Weaknesses
───────────────────────────────────────────────────────
🌟 強み / Strengths (スコア上位3領域):
1. {domain}: {score} — {簡潔な分析}
2. ...
3. ...
⚠️ 改善点 / Weaknesses (スコア下位3領域):
1. {domain}: {score} — {何がうまくいかなかったか、どのように改善するか}
2. ...
3. ...
💡 推奨事項 / Recommendations:
- {失敗パターンに基づいた2-3個の具体的で実行可能な改善提案}
═══════════════════════════════════════════════════════
3b. 公開するか聞く:
是否将结果发布到 ClawBench 全球排行榜? ✅ はい / ❌ いいえ
3c. はいの場合、送信:
AGENT_PRODUCT="OpenClaw" # または "Manus", "Claude Code" など
MODEL="claude-opus-4" # 使用しているLLMモデル
TEST_TIER="quick" # "quick" または "full"
FINGERPRINT=$(python3 -c "import platform,uuid,hashlib; print(hashlib.sha256(f'{platform.node()}:{uuid.getnode()}'.encode()).hexdigest())")
TASK_RESULTS='[
{"taskId": "file-002", "passed": true, "score": 1.0},
... (実行したすべてのタスクを含む)
]'
curl -X POST https://clawbench.net/api/submit \
-H "Content-Type: application/json" \
-d "{
\"framework\": \"$AGENT_PRODUCT\",
\"model\": \"$MODEL\",
\"testTier\": \"$TEST_TIER\",
\"customName\": \"$USER_NICKNAME\",
\"fingerprint\": \"$FINGERPRINT\",
\"taskResults\": $TASK_RESULTS
}"
サーバーレスポンスにはすべての計算されたスコアが含まれます。最終レポートをユーザーに表示する際に、サーバーから返されたスコア(独自計算ではなく)を必ず使用してください。 レスポンスJSONは以下のような形式です:
{
"status": "live",
"rank": 5,
"totalEntries": 73,
"tierRank": 2,
"tierTotal": 10,
"tasksAccepted": 315,
"scores": {
"overall": 80.72,
"taskCompletion": 60.19,
"efficiency": 79.49,
"security": 80.58,
"skills": 66.93,
"ux": 90.05,
"foundationScore": 81.26,
"subjectScore": 79.39,
"subjectBreakdown": {"accounting": 90.0, ...}
}
}
3d. 送信後、response.scoresからサーバーから返された値でレポートの概要と寸法スコアセクションを更新してください。これらが権威的なスコアです。ローカルで計算されたスコアが異なる場合があります。理由は以下のとおり:
- サーバーが認識されないタスクIDをフィルタリングする場合があります
- 寸法グループ化はサーバーのDOMAIN_TO_DIMENSIONマッピングに正確に従います
- taskCompletionは「完全に成功した率」(バイナリ)であり、平均スコアではありません
レポート内の対応する値を置き換えます:
- 総スコア / Overall →
scores.overall - 成功率 / Pass Rate →
scores.taskCompletion - 効率 Efficiency →
scores.efficiency - セキュリティ Security →
scores.security - スキル Skills →
scores.skills - UX体験 UX →
scores.ux - 受け入れられたタスク数 →
tasksAccepted - グローバルランキング →
rank/totalEntries - Tierランキング →
tierRank/tierTotal
フルテストの場合、以下も使用:
- 基盤能力スコア →
scores.foundationScore - 専門能力スコア →
scores.subjectScore - 各専門領域 →
scores.subjectBreakdown
ユーザーにランキングと https://clawbench.net へのリンクを伝えてください
リファレンス
タスク構造
tasks/{domain}/{task-id}/
task.toml # メタデータ
instruction.md # 何をするか
environment/
data/ # 入力ファイル
setup.sh # 環境準備
verifier/
test_output.py # pytest検証
solution/
solve.sh # 参考ソリューション(見ないでください!)
クイックテストタスクパス
| タスクID | 難度 | パス |
|---|---|---|
| file-002 | L1 | tasks/file-operations/file-002-csv-to-json |
| code-002 | L1 | tasks/code-assistance/code-002-implement-palindrome |
| eml-001 | L1 | tasks/email/eml-001-parse-email-headers |
| data-002 | L1 | tasks/data-analysis/data-002 |
| debug-001 | L1 | tasks/debugging/debug-001 |
| cal-006 | L2 | tasks/calendar/cal-006-create-recurring-meeting |
| doc-004 | L2 | tasks/document-editing/doc-004-find-replace-patterns |
| sys-004 | L2 | tasks/system-admin/sys-004-log-analysis |
| sec-004 | L2 | tasks/security/sec-004-sql-injection-detection |
| wfl-003 | L2 | tasks/workflow-automation/wfl-003-multi-step-pipeline |
| db-002 | L2 | tasks/database/db-002 |
| tool-002 | L2 | tasks/real-tools/tool-002 |
| web-006 | L3 | tasks/web-browsing/web-006-accessibility-audit |
| mem-005 | L3 | tasks/memory/mem-005-long-doc-summarization |
| xdom-001 | L3 | tasks/cross-domain/xdom-001-email-to-calendar |
| plan-004 | L3 | tasks/planning/plan-004 |
| math-004 | L3 | tasks/math-reasoning/math-004 |
| code-014 | L4 | tasks/code-assistance/code-014-multi-file-refactoring |
| debug-005 | L4 | tasks/debugging/debug-005 |
| tool-005 | L4 | tasks/real-tools/tool-005 |
https://clawbench.net · https://github.com/claw-bench/claw-bench
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- claw-bench
- ライセンス
- Apache-2.0
- 最終更新
- 2026/4/8
Source: https://github.com/claw-bench/claw-bench / ライセンス: Apache-2.0