Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 2品質スコア 64/100

verltool-agentic-rl-tool-use

VerlToolの統一されたRL(強化学習)フレームワークを使用して、複数のドメイン全体で外部ツールを活用するエージェントをトレーニングできます。ドメイン固有の再設計なしに、マルチターンの対話において、コード実行、検索、SQLクエリ、ビジョンユーティリティを統合的に調整できます。数学的推論、知識QA、ソフトウェアエンジニアリングタスクにおいて、非同期ロールアウトが2倍高速化されます。

description の原文を見る

Train agents to leverage external tools across domains using VerlTool's unified RL framework. Coordinate code execution, search, SQL queries, and vision utilities in multi-turn interactions without domain-specific redesign. 2× faster asynchronous rollouts on mathematical reasoning, knowledge QA, and software engineering tasks.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

VerlTool: ツール使用を伴うホリスティックなエージェンティック強化学習に向けて

ツールを用いた複雑なタスク解決のためのエージェンティックシステムのトレーニング

成果: 単一の統一されたフレームワークを用いて、イテレーティブに推論し、外部ツールを呼び出し、結果を観察し、多様な問題領域全体で適応するエージェントを構築します。

問題コンテキスト

エージェンティックAIへの既存のアプローチは、ツール使用をドメイン固有のシステムに分断しています。知識QAシステムは検索を異なる方法で処理しますが、コード実行システムとは異なります。SQLエージェントはビジュアル推論システムとは異なるAPIを使用します。研究者が複数ドメインにまたがるタスクを解決するエージェントを求めるとき、または実践者が新しいツール機能を追加する必要があるとき、統合のコストは高くなります。カスタムパイプライン、再実装された調整ロジック、そして繰り返されるインフラストラクチャ投資です。

単一ターンの言語モデルは、ツール使用に必要な連続的な意思決定も自然に処理できません。アクション、そのアクションからの結果の観察、そして新しい情報に基づく次のアクション選択です。強化学習(RL)はこれらの複数ターンの軌跡を最適化できますが、RLフレームワークを多様なツールに対応させるには、軌跡表現、観察トー

...

詳細情報

作者
ADu2021
リポジトリ
ADu2021/skillXiv
ライセンス
不明
最終更新
2026/3/26

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: ADu2021 · ADu2021/skillXiv · ライセンス: ライセンス未確認