deep-agent-reasoning
自律型推論エージェントが、エンドツーエンドの学習を通じてツールを効率的に発見・実行できるようにします。自律メモリフォールディングを使用してインタラクション履歴を圧縮し、ToolPOで汎用的なツール利用を学習します。QAからウェブオートメーションまで、多様なベンチマーク環境で応用可能です。
description の原文を見る
Enables autonomous reasoning agents to discover and invoke tools efficiently through end-to-end training. Uses autonomous memory folding to compress interaction history and ToolPO to learn general-purpose tool use, applicable across diverse benchmarks from QA to web automation.
SKILL.md 本文
DeepAgent: ツール学習による統合自律推論
既存の推論エージェントには2つの重大な制限があります。冗長なインタラクション履歴を通じて長期的なタスクでエラーが蓄積し、タスク固有のツールインターフェースが必要とされ、汎用的なツール使用パターンを学習できないという点です。
DeepAgentは、自律的な思考、ツール発見、アクション実行を1つのエンドツーエンド推論プロセスに統合することで、この問題を解決します。このシステムはメモリ圧縮と学習されたツール呼び出しを組み合わせ、エージェントが複雑な複数ステップのタスクを効率的に処理できるようにします。
コアコンセプト
DeepAgentは3つの統合メカニズムを通じて動作します。
- 自律メモリ折り畳み: 過去のインタラクションを構造化された逐話的、ワーキング、ツールメモリに圧縮し、エラー伝播を削減
- ToolPO(ツールポリシー最適化): シミュレートされたAPIと細粒度なツール呼び出し優位性属性を使用するエンドツーエンドRLストラテジー
- ツール検索: ラベル付きツールとオープンセット発見シナリオの両方に対応
アーキテクチャ概要
- メモリ圧縮は冗長な履歴なしに本質的なインタラクションパターンをキャプチャ
- ツール呼び出し優位性属性により、クレジット信号をツール呼び出しトーク
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定