汎用LLM・AI開発⭐ リポ 2品質スコア 59/100

deep-agent-reasoning

Name: deep-agent-reasoning
Author: ADu2021

自律型推論エージェントが、エンドツーエンドの学習を通じてツールを効率的に発見・実行できるようにします。自律メモリフォールディングを使用してインタラクション履歴を圧縮し、ToolPOで汎用的なツール利用を学習します。QAからウェブオートメーションまで、多様なベンチマーク環境で応用可能です。

description の原文を見る

Enables autonomous reasoning agents to discover and invoke tools efficiently through end-to-end training. Uses autonomous memory folding to compress interaction history and ToolPO to learn general-purpose tool use, applicable across diverse benchmarks from QA to web automation.

SKILL.md 本文

DeepAgent: ツール学習による統合自律推論

既存の推論エージェントには2つの重大な制限があります。冗長なインタラクション履歴を通じて長期的なタスクでエラーが蓄積し、タスク固有のツールインターフェースが必要とされ、汎用的なツール使用パターンを学習できないという点です。

DeepAgentは、自律的な思考、ツール発見、アクション実行を1つのエンドツーエンド推論プロセスに統合することで、この問題を解決します。このシステムはメモリ圧縮と学習されたツール呼び出しを組み合わせ、エージェントが複雑な複数ステップのタスクを効率的に処理できるようにします。

コアコンセプト

DeepAgentは3つの統合メカニズムを通じて動作します。

自律メモリ折り畳み: 過去のインタラクションを構造化された逐話的、ワーキング、ツールメモリに圧縮し、エラー伝播を削減
ToolPO(ツールポリシー最適化): シミュレートされたAPIと細粒度なツール呼び出し優位性属性を使用するエンドツーエンドRLストラテジー
ツール検索: ラベル付きツールとオープンセット発見シナリオの両方に対応

アーキテクチャ概要

メモリ圧縮は冗長な履歴なしに本質的なインタラクションパターンをキャプチャ
ツール呼び出し優位性属性により、クレジット信号をツール呼び出しトークンに隔離
メモリタイプ(逐話的、ワーキング、ツール)は推論の異なる段階に対応
エンドツーエンドトレーニングは効果的なツールの組み合わせの発見を可能にする

実装ステップ

メモリ折り畳みメカニズムは各ステップでインタラクションを選択的に要約します。完全な会話履歴を保持する代わりに、過去の状態とアクションを密度の高い表現に圧縮します。

class MemoryFolder:
    def fold_interaction(self, history, current_state):
        # Compress episodic memory: factual outcomes from past steps
        episodic = self.compress_facts(history)
        # Working memory: intermediate reasoning state
        working = self.compress_reasoning(current_state)
        # Tool memory: effective tool patterns
        tools = self.extract_tool_patterns(history)
        return {episodic, working, tools}

    def compress_facts(self, history):
        # Extract key outcomes and state changes
        return [fact for fact in history if is_critical(fact)]

    def extract_tool_patterns(self, history):
        # Track which tools succeeded in which contexts
        return {(context, goal): tool for context, goal, tool in history}

ToolPOはツール呼び出しのトークンレベルで優位性属性を適用します。生成ステップ全体にクレジットを割り当てるのではなく、ツールを呼び出すトークンに報酬信号を集中させます。

class ToolPO:
    def compute_advantage(self, trajectory, reward):
        # Identify tool-call tokens in the generation
        tool_tokens = [idx for idx, token in enumerate(trajectory)
                      if is_tool_invocation(token)]

        # Assign advantage only to tool-invocation tokens
        advantage = {}
        for idx in tool_tokens:
            # Fine-grained credit based on outcome
            advantage[idx] = compute_token_advantage(trajectory, idx, reward)

        return advantage

実用的ガイダンス

観点	推奨事項
メモリ圧縮率	4:1～8:1(インタラクションシーケンスを75～87%削減)
ツール呼び出しトークン重み付け	RLトレーニング時に他のトークンより2～5倍高い
逐話的メモリ保持	ドメインごとに最後のN=10個の重要事実を保持
シミュレートされたAPI複雑性	ターゲット環境の洗練度に一致させる

DeepAgentを使用する場合:

ツール呼び出しが必要な複数ステップの推論タスク
エラー蓄積が重要な長期間のタスク
探索する大規模で多様なツールライブラリを持つシナリオ

使用しない場合:

ツール要件のない単一ステップのタスク
厳密に定義されたツールインターフェースを持つドメイン(API固有のエージェントを使用)
メモリ圧縮がレイテンシを追加する可能性のあるリアルタイムシステム

よくある落とし穴:

メモリを過度に圧縮し、重要なコンテキストを失う
ツール固有の優位性信号の重み付けが不十分
トレーニング中のシミュレートされたAPIトラジェクトリの多様性が不足している

参考資料: arXivのDeepAgent

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: ADu2021
リポジトリ: ADu2021/skillXiv
ライセンス: MIT
最終更新: 2026/3/26

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/ADu2021/skillXiv / ライセンス: MIT

deep-agent-reasoning

SKILL.md 本文

DeepAgent: ツール学習による統合自律推論

コアコンセプト

アーキテクチャ概要

実装ステップ

実用的ガイダンス

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui