deep-agent-reasoning
自律型推論エージェントが、エンドツーエンドの学習を通じてツールを効率的に発見・実行できるようにします。自律メモリフォールディングを使用してインタラクション履歴を圧縮し、ToolPOで汎用的なツール利用を学習します。QAからウェブオートメーションまで、多様なベンチマーク環境で応用可能です。
description の原文を見る
Enables autonomous reasoning agents to discover and invoke tools efficiently through end-to-end training. Uses autonomous memory folding to compress interaction history and ToolPO to learn general-purpose tool use, applicable across diverse benchmarks from QA to web automation.
SKILL.md 本文
DeepAgent: ツール学習による統合自律推論
既存の推論エージェントには2つの重大な制限があります。冗長なインタラクション履歴を通じて長期的なタスクでエラーが蓄積し、タスク固有のツールインターフェースが必要とされ、汎用的なツール使用パターンを学習できないという点です。
DeepAgentは、自律的な思考、ツール発見、アクション実行を1つのエンドツーエンド推論プロセスに統合することで、この問題を解決します。このシステムはメモリ圧縮と学習されたツール呼び出しを組み合わせ、エージェントが複雑な複数ステップのタスクを効率的に処理できるようにします。
コアコンセプト
DeepAgentは3つの統合メカニズムを通じて動作します。
- 自律メモリ折り畳み: 過去のインタラクションを構造化された逐話的、ワーキング、ツールメモリに圧縮し、エラー伝播を削減
- ToolPO(ツールポリシー最適化): シミュレートされたAPIと細粒度なツール呼び出し優位性属性を使用するエンドツーエンドRLストラテジー
- ツール検索: ラベル付きツールとオープンセット発見シナリオの両方に対応
アーキテクチャ概要
- メモリ圧縮は冗長な履歴なしに本質的なインタラクションパターンをキャプチャ
- ツール呼び出し優位性属性により、クレジット信号をツール呼び出しトークンに隔離
- メモリタイプ(逐話的、ワーキング、ツール)は推論の異なる段階に対応
- エンドツーエンドトレーニングは効果的なツールの組み合わせの発見を可能にする
実装ステップ
メモリ折り畳みメカニズムは各ステップでインタラクションを選択的に要約します。完全な会話履歴を保持する代わりに、過去の状態とアクションを密度の高い表現に圧縮します。
class MemoryFolder:
def fold_interaction(self, history, current_state):
# Compress episodic memory: factual outcomes from past steps
episodic = self.compress_facts(history)
# Working memory: intermediate reasoning state
working = self.compress_reasoning(current_state)
# Tool memory: effective tool patterns
tools = self.extract_tool_patterns(history)
return {episodic, working, tools}
def compress_facts(self, history):
# Extract key outcomes and state changes
return [fact for fact in history if is_critical(fact)]
def extract_tool_patterns(self, history):
# Track which tools succeeded in which contexts
return {(context, goal): tool for context, goal, tool in history}
ToolPOはツール呼び出しのトークンレベルで優位性属性を適用します。生成ステップ全体にクレジットを割り当てるのではなく、ツールを呼び出すトークンに報酬信号を集中させます。
class ToolPO:
def compute_advantage(self, trajectory, reward):
# Identify tool-call tokens in the generation
tool_tokens = [idx for idx, token in enumerate(trajectory)
if is_tool_invocation(token)]
# Assign advantage only to tool-invocation tokens
advantage = {}
for idx in tool_tokens:
# Fine-grained credit based on outcome
advantage[idx] = compute_token_advantage(trajectory, idx, reward)
return advantage
実用的ガイダンス
| 観点 | 推奨事項 |
|---|---|
| メモリ圧縮率 | 4:1~8:1(インタラクションシーケンスを75~87%削減) |
| ツール呼び出しトークン重み付け | RLトレーニング時に他のトークンより2~5倍高い |
| 逐話的メモリ保持 | ドメインごとに最後のN=10個の重要事実を保持 |
| シミュレートされたAPI複雑性 | ターゲット環境の洗練度に一致させる |
DeepAgentを使用する場合:
- ツール呼び出しが必要な複数ステップの推論タスク
- エラー蓄積が重要な長期間のタスク
- 探索する大規模で多様なツールライブラリを持つシナリオ
使用しない場合:
- ツール要件のない単一ステップのタスク
- 厳密に定義されたツールインターフェースを持つドメイン(API固有のエージェントを使用)
- メモリ圧縮がレイテンシを追加する可能性のあるリアルタイムシステム
よくある落とし穴:
- メモリを過度に圧縮し、重要なコンテキストを失う
- ツール固有の優位性信号の重み付けが不十分
- トレーニング中のシミュレートされたAPIトラジェクトリの多様性が不足している
参考資料: arXivのDeepAgent
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- MIT
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。