PinchBench ベンチマークスキル

PinchBench は、LLM モデルが OpenClaw エージェントの脳としてどの程度パフォーマンスを発揮するかを測定します。結果は pinchbench.com の公開リーダーボードで収集されます。

前提条件

Python 3.10 以上
uv パッケージマネージャー
OpenClaw インスタンス (このエージェント)

クイックスタート

cd <skill_directory>

# 特定のモデルでベンチマークを実行
uv run benchmark.py --model anthropic/claude-sonnet-4

# 自動化タスクのみを実行 (高速)
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite automated-only

# 特定のタスクを実行
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite task_calendar,task_stock

# 結果のアップロードをスキップ
uv run benchmark.py --model anthropic/claude-sonnet-4 --no-upload

利用可能なタスク (23)

タスク	カテゴリ	説明
`task_sanity`	基本	エージェントの動作確認
`task_calendar`	生産性	カレンダーイベント作成
`task_stock`	リサーチ	株価検索
`task_blog`	ライティング	ブログ記事作成
`task_weather`	コーディング	天気スクリプト
`task_summary`	分析	ドキュメント要約
`task_events`	リサーチ	カンファレンスリサーチ
`task_email`	ライティング	メールドラフト作成
`task_memory`	メモリ	コンテキスト取得
`task_files`	ファイル	ファイル構造作成
`task_workflow`	統合	マルチステップ API ワークフロー
`task_clawdhub`	スキル	ClawHub インタラクション
`task_skill_search`	スキル	スキル発見
`task_image_gen`	クリエイティブ	画像生成
`task_humanizer`	ライティング	テキスト人間化
`task_daily_summary`	生産性	デイリーダイジェスト
`task_email_triage`	メール	インボックストリアージ
`task_email_search`	メール	メール検索
`task_market_research`	リサーチ	市場分析
`task_spreadsheet_summary`	分析	スプレッドシート分析
`task_eli5_pdf_summary`	分析	PDF 簡略化
`task_openclaw_comprehension`	ナレッジ	OpenClaw ドキュメント理解
`task_second_brain`	メモリ	ナレッジマネジメント

コマンドラインオプション

オプション	説明
`--model`	モデル識別子 (例: `anthropic/claude-sonnet-4`)
`--suite`	`all`、`automated-only`、またはカンマ区切りのタスク ID
`--output-dir`	結果ディレクトリ (デフォルト: `results/`)
`--timeout-multiplier`	遅いモデル向けのタスクタイムアウトをスケーリング
`--runs`	平均化のためのタスクあたりの実行回数
`--no-upload`	リーダーボードへのアップロードをスキップ
`--register`	投稿用の新しい API トークンをリクエスト
`--upload FILE`	以前の結果 JSON をアップロード

トークン登録

リーダーボードに結果を投稿するには:

# API トークンの登録 (1 回のみ)
uv run benchmark.py --register

# ベンチマークを実行 (トークンで自動アップロード)
uv run benchmark.py --model anthropic/claude-sonnet-4

結果

結果は出力ディレクトリに JSON として保存されます:

# タスクスコアを表示
jq '.tasks[] | {task_id, score: .grading.mean}' results/0001_anthropic-claude-sonnet-4.json

# 失敗したタスクを表示
jq '.tasks[] | select(.grading.mean < 0.5)' results/*.json

# 総合スコアを計算
jq '{average: ([.tasks[].grading.mean] | add / length)}' results/*.json

カスタムタスクの追加

tasks/ ディレクトリに TASK_TEMPLATE.md に従ったマークダウンファイルを作成します。各タスクには以下が必要です:

YAML フロントマター (id、name、category、grading_type、timeout)
プロンプトセクション
期待される動作
グレーディング基準
自動化チェック (Python グレーディング関数)

リーダーボード

pinchbench.com で結果を確認できます。リーダーボードには以下が表示されます:

総合スコア別のモデルランキング
タスク別の詳細結果
過去のパフォーマンストレンド

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

pinchbench

SKILL.md 本文