汎用LLM・AI開発⭐ リポ 2品質スコア 64/100
emergent-temporal-abstraction
自己回帰モデル内部の階層的な時間抽象化を内部RLを通じて発見できます。これにより報酬が疎なタスクを効率的に探索できます。メタコントローラーは残差ストリームを修正する抽象的なアクション列を学習し、ゲートの切り替えで準二値パターンを実現し、抽象空間でのRLによってトークンレベルの学習と比べて桁違いの高速化を達成します。
description の原文を見る
Discover hierarchical temporal abstractions within autoregressive models via internal RL, enabling efficient exploration of sparse-reward tasks. Metacontroller learns abstract action sequences modifying residual streams, switching gates enable quasi-binary patterns, and abstract-space RL achieves many orders-of-magnitude speedup over token-level learning.
SKILL.md 本文
注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。
概要
このテクニックは、自己回帰モデルが時間的抽象化の発見を通じて階層的な振る舞いを学習することを可能にし、スパース報酬タスクの学習を劇的に加速化します。
コア技術
発見された抽象化による内部 RL:
class HierarchicalARModel:
def __init__(self):
self.base_ar_model = PretrainedAutoregressive()
self.metacontroller = MetacontrollerPolicy()
self.abstract_controllers = nn.ModuleList()
def forward_hierarchical(self, state):
# Metacontroller generates abstract action sequence
abstract_actions = self.metacontroller.sample_actions(state)
# Each abstract action is a sequence of residual stream modifications
out
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定