agent-harness-construction
AIエージェントのアクション空間、ツール定義、および観察フォーマットを設計・最適化し、タスク完了率を向上させます。
description の原文を見る
设计和优化AI代理的动作空间、工具定义和观察格式,以提高完成率。
SKILL.md 本文
エージェントハーネス構築
エージェントの計画立案、ツール呼び出し、エラーからの回復、完了状態への収束の方法を改善する際にこのスキルを使用します。
コアモデル
エージェント出力の品質は以下に制限されます:
- アクション空間の品質
- 観測の品質
- 回復の品質
- コンテキスト予算の品質
アクション空間設計
- 安定で明確なツール名を使用する。
- 入力スキーマを優先し、スコープを狭く保つ。
- 決定論的な出力形状を返す。
- 分離できない場合を除き、万能ツールは避ける。
粒度ルール
- リスクの高い操作(デプロイ、マイグレーション、権限)にはマイクロツールを使用する。
- 一般的な編集/読み取り/検索ループにはメディアムツールを使用する。
- ラウンドトリップのオーバーヘッドが主要なコストの場合にのみマクロツールを使用する。
観測設計
各ツール応答には以下を含める必要があります:
status: success|warning|errorsummary: 1 行の結果next_actions: 実行可能な次のステップartifacts: ファイルパス / ID
エラー回復契約
各エラーパスには以下を含める必要があります:
- 根本原因のヒント
- 安全な再試行指示
- 明確な停止条件
コンテキスト予算管理
- システムプロンプトを最小限で不変に保つ。
- 大量のガイダンス情報をオンデマンド読み込みスキルに移す。
- インラインの長いドキュメントではなく、ファイル参照を優先する。
- 任意のトークン閾値ではなく、フェーズ境界で圧縮する。
アーキテクチャパターンガイダンス
- ReAct:パスが不確定な探索的タスクに最適。
- 関数呼び出し:構造化された決定論的フローに最適。
- ハイブリッドモード(推奨):ReAct 計画 + 型指定ツール実行。
ベンチマーク
以下を追跡します:
- 完了率
- タスクあたりの再試行回数
- pass@1 および pass@3
- 成功したタスクあたりのコスト
アンチパターン
- セマンティックオーバーラップが多すぎるツール。
- 回復ヒントのない不透明なツール出力。
- 後続ステップなしのエラー出力のみ。
- 無関係な参照を含むコンテキスト過負荷。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- affaan-m
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/affaan-m/everything-claude-code / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。