skill-rl-recursive-distillation
エージェントのパフォーマンスを向上させるため、過去の行動軌跡から行動パターンを自律的に抽出し、再利用可能なスキルとして蒸留します。これらのスキルを活用して今後の意思決定をガイドします。成功と失敗のエピソードを区別して処理し、スキルライブラリを動的に進化させることで、ALFWorldで89.9%の成功率を達成します。
description の原文を見る
Improve agent performance by autonomously distilling behavioral patterns from trajectories into reusable skills, then using these skills to guide future decisions. Achieves 89.9% success on ALFWorld through differential processing of success vs failure episodes and dynamic skill library evolution.
SKILL.md 本文
SkillRL: 再帰的スキル拡張強化学習
ポリシーが過去の知見を繰り返し再発見しなければならない場合、エージェントのパフォーマンスは停滞します。SkillRLはこの問題に対処するため、相互作用履歴から行動パターンを自動抽出し、コンパクトで再利用可能なスキルに蒸留して、将来の意思決定を導きます。生トラジェクトリを保存する代わりに、このシステムは戦略的パターンと失敗の教訓を蒸留し、エージェントとともに成長するスキルライブラリを作成します。
コアコンセプト
SkillRLはトラジェクトリを差別的に処理します:
- 成功エピソード → 戦略的パターンを抽出(生トラジェクトリ比で10~20倍の圧縮)
- 失敗エピソード → 何が問題だったかを捉える失敗の教訓を抽出
スキルは階層的に組織されます:汎用スキル(探索、状態管理)とタスク固有スキル。意思決定時に、エージェントはセマンティック類似度を介して関連するスキルを取得し、コンテキストのオーバーヘッドを削減しながら推論品質を維持します。
スキルライブラリは再帰的に進化します:検証エポック後、失敗モードから新しいスキルが生成されたり既存スキルが改善されたりして、改善されたポリシーが新しい課題に遭遇する好循環が生まれます。
アーキテクチャ概要
- エクスペリエンス処理:成功トラジェクトリ(パタ
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定