Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 1,149品質スコア 100/100

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

description の原文を見る

Run PinchBench benchmarks to evaluate OpenClaw agent performance across real-world tasks. Use when testing model capabilities, comparing models, submitting benchmark results to the leaderboard, or checking how well your OpenClaw setup handles calendar, email, research, coding, and multi-step workflows.

SKILL.md 本文

PinchBench ベンチマークスキル

PinchBench は、LLM モデルが OpenClaw エージェントの脳としてどの程度パフォーマンスを発揮するかを測定します。結果は pinchbench.com の公開リーダーボードで収集されます。

前提条件

  • Python 3.10 以上
  • uv パッケージマネージャー
  • OpenClaw インスタンス (このエージェント)

クイックスタート

cd <skill_directory>

# 特定のモデルでベンチマークを実行
uv run benchmark.py --model anthropic/claude-sonnet-4

# 自動化タスクのみを実行 (高速)
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite automated-only

# 特定のタスクを実行
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite task_calendar,task_stock

# 結果のアップロードをスキップ
uv run benchmark.py --model anthropic/claude-sonnet-4 --no-upload

利用可能なタスク (23)

タスクカテゴリ説明
task_sanity基本エージェントの動作確認
task_calendar生産性カレンダーイベント作成
task_stockリサーチ株価検索
task_blogライティングブログ記事作成
task_weatherコーディング天気スクリプト
task_summary分析ドキュメント要約
task_eventsリサーチカンファレンスリサーチ
task_emailライティングメールドラフト作成
task_memoryメモリコンテキスト取得
task_filesファイルファイル構造作成
task_workflow統合マルチステップ API ワークフロー
task_clawdhubスキルClawHub インタラクション
task_skill_searchスキルスキル発見
task_image_genクリエイティブ画像生成
task_humanizerライティングテキスト人間化
task_daily_summary生産性デイリーダイジェスト
task_email_triageメールインボックストリアージ
task_email_searchメールメール検索
task_market_researchリサーチ市場分析
task_spreadsheet_summary分析スプレッドシート分析
task_eli5_pdf_summary分析PDF 簡略化
task_openclaw_comprehensionナレッジOpenClaw ドキュメント理解
task_second_brainメモリナレッジマネジメント

コマンドラインオプション

オプション説明
--modelモデル識別子 (例: anthropic/claude-sonnet-4)
--suiteallautomated-only、またはカンマ区切りのタスク ID
--output-dir結果ディレクトリ (デフォルト: results/)
--timeout-multiplier遅いモデル向けのタスクタイムアウトをスケーリング
--runs平均化のためのタスクあたりの実行回数
--no-uploadリーダーボードへのアップロードをスキップ
--register投稿用の新しい API トークンをリクエスト
--upload FILE以前の結果 JSON をアップロード

トークン登録

リーダーボードに結果を投稿するには:

# API トークンの登録 (1 回のみ)
uv run benchmark.py --register

# ベンチマークを実行 (トークンで自動アップロード)
uv run benchmark.py --model anthropic/claude-sonnet-4

結果

結果は出力ディレクトリに JSON として保存されます:

# タスクスコアを表示
jq '.tasks[] | {task_id, score: .grading.mean}' results/0001_anthropic-claude-sonnet-4.json

# 失敗したタスクを表示
jq '.tasks[] | select(.grading.mean < 0.5)' results/*.json

# 総合スコアを計算
jq '{average: ([.tasks[].grading.mean] | add / length)}' results/*.json

カスタムタスクの追加

tasks/ ディレクトリに TASK_TEMPLATE.md に従ったマークダウンファイルを作成します。各タスクには以下が必要です:

  • YAML フロントマター (id、name、category、grading_type、timeout)
  • プロンプトセクション
  • 期待される動作
  • グレーディング基準
  • 自動化チェック (Python グレーディング関数)

リーダーボード

pinchbench.com で結果を確認できます。リーダーボードには以下が表示されます:

  • 総合スコア別のモデルランキング
  • タスク別の詳細結果
  • 過去のパフォーマンストレンド

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
pinchbench
リポジトリ
pinchbench/skill
ライセンス
MIT
最終更新
2026/5/8

Source: https://github.com/pinchbench/skill / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
汎用LLM・AI開発⭐ リポ 2,643

ai-core/adapter-configuration

プロバイダアダプターの選択と設定: openaiText、anthropicText、geminiText、ollamaText、grokText、groqText、openRouterTextに対応しています。modelOptionsによるモデル別の型安全性、推論・思考設定、実行時のアダプター切り替え、カスタムモデル向けのextendAdapter()、createModel()機能を提供します。APIキー環境変数: OPENAI_API_KEY、ANTHROPIC_API_KEY、GOOGLE_API_KEY/GEMINI_API_KEY、XAI_API_KEY、GROQ_API_KEY、OPENROUTER_API_KEY、OLLAMA_HOSTに対応しています。

by TanStack
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: pinchbench · pinchbench/skill · ライセンス: MIT