汎用LLM・AI開発⭐ リポ 2品質スコア 64/100

practitioner-guide-multi-turn-agentic-rl

複数ターンの強化学習を通じて、環境の複雑性、報酬シグナル、ポリシー初期化を体系的に最適化することで、LLMエージェントを訓練します。カリキュラム学習、検証済みの密な報酬、ドメイン固有のSFT（教師あり微調整）を活用して、TextWorld、ALFWorld、SWE-Gymベンチマーク上でのエージェントの安定した収束を実現します。

description の原文を見る

Train LLM agents via multi-turn reinforcement learning by systematically optimizing environment complexity, reward signals, and policy initialization. Use curriculum learning, dense verified rewards, and domain-specific SFT for reliable agent convergence across TextWorld, ALFWorld, and SWE-Gym benchmarks.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

マルチターン・エージェント強化学習の実践ガイド

コアコンセプト

マルチターン・エージェント強化学習は、拡張タスク列を通じた強化学習により言語モデルをインタラクティブなエージェントとして訓練します。重要な洞察は、パフォーマンスが環境仕様、報酬設計、ポリシー初期化という3つの柱に渡った調整された設計選択に依存しており、単一のコンポーネントの独立した最適化ではないということです。

アーキテクチャ概要

POMDP定式化: エージェントはエピソード境界で実行される自然言語コマンドを生成し(<eos>トークン)、スパース報酬を伴うマルチステップの軌跡を生成します
トークンレベルのクレジット割当: TD誤差とGAE利点が軌跡内のすべてのトークンを通じて流れ、報酬は完了時にのみ現れますが、価値ブートストラップを可能にします
マルチドメイン評価: TextWorld(ナビゲーション)、ALFWorld(家事タスク)、SWE-Gym(コード生成)がアルゴリズム・環境の相互作用を明らかにします
カリキュラム対応訓練: シンプルから複雑な環境へのスキル転移は、単一複雑度での訓練よりもより難しいタスクでの性能を上回ります

実装ステップ

1. カリキュラム学習を伴う環境設計

エージェントの基本的な行動を確立するため

...

全文を GitHub の原本で見る →リポジトリ

詳細情報

作者: ADu2021
リポジトリ: ADu2021/skillXiv
ライセンス: 不明
最終更新: 2026/3/26

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定