pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
description の原文を見る
Run PinchBench benchmarks to evaluate OpenClaw agent performance across real-world tasks. Use when testing model capabilities, comparing models, submitting benchmark results to the leaderboard, or checking how well your OpenClaw setup handles calendar, email, research, coding, and multi-step workflows.
SKILL.md 本文
PinchBench ベンチマークスキル
PinchBench は、LLM モデルが OpenClaw エージェントの脳としてどの程度パフォーマンスを発揮するかを測定します。結果は pinchbench.com の公開リーダーボードで収集されます。
前提条件
- Python 3.10 以上
- uv パッケージマネージャー
- OpenClaw インスタンス (このエージェント)
クイックスタート
cd <skill_directory>
# 特定のモデルでベンチマークを実行
uv run benchmark.py --model anthropic/claude-sonnet-4
# 自動化タスクのみを実行 (高速)
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite automated-only
# 特定のタスクを実行
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite task_calendar,task_stock
# 結果のアップロードをスキップ
uv run benchmark.py --model anthropic/claude-sonnet-4 --no-upload
利用可能なタスク (23)
| タスク | カテゴリ | 説明 |
|---|---|---|
task_sanity | 基本 | エージェントの動作確認 |
task_calendar | 生産性 | カレンダーイベント作成 |
task_stock | リサーチ | 株価検索 |
task_blog | ライティング | ブログ記事作成 |
task_weather | コーディング | 天気スクリプト |
task_summary | 分析 | ドキュメント要約 |
task_events | リサーチ | カンファレンスリサーチ |
task_email | ライティング | メールドラフト作成 |
task_memory | メモリ | コンテキスト取得 |
task_files | ファイル | ファイル構造作成 |
task_workflow | 統合 | マルチステップ API ワークフロー |
task_clawdhub | スキル | ClawHub インタラクション |
task_skill_search | スキル | スキル発見 |
task_image_gen | クリエイティブ | 画像生成 |
task_humanizer | ライティング | テキスト人間化 |
task_daily_summary | 生産性 | デイリーダイジェスト |
task_email_triage | メール | インボックストリアージ |
task_email_search | メール | メール検索 |
task_market_research | リサーチ | 市場分析 |
task_spreadsheet_summary | 分析 | スプレッドシート分析 |
task_eli5_pdf_summary | 分析 | PDF 簡略化 |
task_openclaw_comprehension | ナレッジ | OpenClaw ドキュメント理解 |
task_second_brain | メモリ | ナレッジマネジメント |
コマンドラインオプション
| オプション | 説明 |
|---|---|
--model | モデル識別子 (例: anthropic/claude-sonnet-4) |
--suite | all、automated-only、またはカンマ区切りのタスク ID |
--output-dir | 結果ディレクトリ (デフォルト: results/) |
--timeout-multiplier | 遅いモデル向けのタスクタイムアウトをスケーリング |
--runs | 平均化のためのタスクあたりの実行回数 |
--no-upload | リーダーボードへのアップロードをスキップ |
--register | 投稿用の新しい API トークンをリクエスト |
--upload FILE | 以前の結果 JSON をアップロード |
トークン登録
リーダーボードに結果を投稿するには:
# API トークンの登録 (1 回のみ)
uv run benchmark.py --register
# ベンチマークを実行 (トークンで自動アップロード)
uv run benchmark.py --model anthropic/claude-sonnet-4
結果
結果は出力ディレクトリに JSON として保存されます:
# タスクスコアを表示
jq '.tasks[] | {task_id, score: .grading.mean}' results/0001_anthropic-claude-sonnet-4.json
# 失敗したタスクを表示
jq '.tasks[] | select(.grading.mean < 0.5)' results/*.json
# 総合スコアを計算
jq '{average: ([.tasks[].grading.mean] | add / length)}' results/*.json
カスタムタスクの追加
tasks/ ディレクトリに TASK_TEMPLATE.md に従ったマークダウンファイルを作成します。各タスクには以下が必要です:
- YAML フロントマター (id、name、category、grading_type、timeout)
- プロンプトセクション
- 期待される動作
- グレーディング基準
- 自動化チェック (Python グレーディング関数)
リーダーボード
pinchbench.com で結果を確認できます。リーダーボードには以下が表示されます:
- 総合スコア別のモデルランキング
- タスク別の詳細結果
- 過去のパフォーマンストレンド
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- pinchbench
- リポジトリ
- pinchbench/skill
- ライセンス
- MIT
- 最終更新
- 2026/5/8
Source: https://github.com/pinchbench/skill / ライセンス: MIT