verltool-agentic-rl-tool-use
VerlToolの統一されたRL(強化学習)フレームワークを使用して、複数のドメイン全体で外部ツールを活用するエージェントをトレーニングできます。ドメイン固有の再設計なしに、マルチターンの対話において、コード実行、検索、SQLクエリ、ビジョンユーティリティを統合的に調整できます。数学的推論、知識QA、ソフトウェアエンジニアリングタスクにおいて、非同期ロールアウトが2倍高速化されます。
description の原文を見る
Train agents to leverage external tools across domains using VerlTool's unified RL framework. Coordinate code execution, search, SQL queries, and vision utilities in multi-turn interactions without domain-specific redesign. 2× faster asynchronous rollouts on mathematical reasoning, knowledge QA, and software engineering tasks.
SKILL.md 本文
VerlTool: ツール使用を伴うホリスティックなエージェンティック強化学習に向けて
ツールを用いた複雑なタスク解決のためのエージェンティックシステムのトレーニング
成果: 単一の統一されたフレームワークを用いて、イテレーティブに推論し、外部ツールを呼び出し、結果を観察し、多様な問題領域全体で適応するエージェントを構築します。
問題コンテキスト
エージェンティックAIへの既存のアプローチは、ツール使用をドメイン固有のシステムに分断しています。知識QAシステムは検索を異なる方法で処理しますが、コード実行システムとは異なります。SQLエージェントはビジュアル推論システムとは異なるAPIを使用します。研究者が複数ドメインにまたがるタスクを解決するエージェントを求めるとき、または実践者が新しいツール機能を追加する必要があるとき、統合のコストは高くなります。カスタムパイプライン、再実装された調整ロジック、そして繰り返されるインフラストラクチャ投資です。
単一ターンの言語モデルは、ツール使用に必要な連続的な意思決定も自然に処理できません。アクション、そのアクションからの結果の観察、そして新しい情報に基づく次のアクション選択です。強化学習(RL)はこれらの複数ターンの軌跡を最適化できますが、RLフレームワークを多様なツールに対応させるには、軌跡表現、観察トー
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定