Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 2品質スコア 64/100

practitioner-guide-multi-turn-agentic-rl

複数ターンの強化学習を通じて、環境の複雑性、報酬シグナル、ポリシー初期化を体系的に最適化することで、LLMエージェントを訓練します。カリキュラム学習、検証済みの密な報酬、ドメイン固有のSFT(教師あり微調整)を活用して、TextWorld、ALFWorld、SWE-Gymベンチマーク上でのエージェントの安定した収束を実現します。

description の原文を見る

Train LLM agents via multi-turn reinforcement learning by systematically optimizing environment complexity, reward signals, and policy initialization. Use curriculum learning, dense verified rewards, and domain-specific SFT for reliable agent convergence across TextWorld, ALFWorld, and SWE-Gym benchmarks.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

マルチターン・エージェント強化学習の実践ガイド

コアコンセプト

マルチターン・エージェント強化学習は、拡張タスク列を通じた強化学習により言語モデルをインタラクティブなエージェントとして訓練します。重要な洞察は、パフォーマンスが環境仕様、報酬設計、ポリシー初期化という3つの柱に渡った調整された設計選択に依存しており、単一のコンポーネントの独立した最適化ではないということです。

アーキテクチャ概要

  • POMDP定式化: エージェントはエピソード境界で実行される自然言語コマンドを生成し(<eos>トークン)、スパース報酬を伴うマルチステップの軌跡を生成します
  • トークンレベルのクレジット割当: TD誤差とGAE利点が軌跡内のすべてのトークンを通じて流れ、報酬は完了時にのみ現れますが、価値ブートストラップを可能にします
  • マルチドメイン評価: TextWorld(ナビゲーション)、ALFWorld(家事タスク)、SWE-Gym(コード生成)がアルゴリズム・環境の相互作用を明らかにします
  • カリキュラム対応訓練: シンプルから複雑な環境へのスキル転移は、単一複雑度での訓練よりもより難しいタスクでの性能を上回ります

実装ステップ

1. カリキュラム学習を伴う環境設計

エージェントの基本的な行動を確立するため

...

詳細情報

作者
ADu2021
リポジトリ
ADu2021/skillXiv
ライセンス
不明
最終更新
2026/3/26

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: ADu2021 · ADu2021/skillXiv · ライセンス: ライセンス未確認