emergent-temporal-abstraction
自己回帰モデル内部の階層的な時間抽象化を内部RLを通じて発見できます。これにより報酬が疎なタスクを効率的に探索できます。メタコントローラーは残差ストリームを修正する抽象的なアクション列を学習し、ゲートの切り替えで準二値パターンを実現し、抽象空間でのRLによってトークンレベルの学習と比べて桁違いの高速化を達成します。
description の原文を見る
Discover hierarchical temporal abstractions within autoregressive models via internal RL, enabling efficient exploration of sparse-reward tasks. Metacontroller learns abstract action sequences modifying residual streams, switching gates enable quasi-binary patterns, and abstract-space RL achieves many orders-of-magnitude speedup over token-level learning.
SKILL.md 本文
概要
このテクニックは、自己回帰モデルが時間的抽象化の発見を通じて階層的な振る舞いを学習することを可能にし、スパース報酬タスクの学習を劇的に加速化します。
コア技術
発見された抽象化による内部 RL:
class HierarchicalARModel:
def __init__(self):
self.base_ar_model = PretrainedAutoregressive()
self.metacontroller = MetacontrollerPolicy()
self.abstract_controllers = nn.ModuleList()
def forward_hierarchical(self, state):
# Metacontroller generates abstract action sequence
abstract_actions = self.metacontroller.sample_actions(state)
# Each abstract action is a sequence of residual stream modifications
output = self.base_ar_model.initial_forward(state)
for t, abstract_action in enumerate(abstract_actions):
# Apply abstract action via residual stream modification
controller_output = self.abstract_controllers[abstract_action](output)
output = output + controller_output # Residual addition
# Check switching condition
if self.should_switch(output, t):
break # Move to next abstract action
return output
スイッチングゲートと時間的パターン:
def switching_gate_mechanism(features, temperature=1.0):
"""
Binary switching via gating, creating sparse temporal patterns.
"""
gate_logits = nn.Linear(hidden_dim, 1)(features)
gate_prob = sigmoid(gate_logits / temperature)
# Gumbel-softmax for differentiable sampling
gate_sample = gumbel_softmax(gate_prob)
return gate_sample
抽象空間での RL:
def abstract_space_rl(model, env):
for episode in range(num_episodes):
state = env.reset()
abstract_actions = model.metacontroller.sample_actions(state)
# Accumulate token-level transitions
tokens = []
for abstract_action in abstract_actions:
token_sequence = model.forward_with_controller(abstract_action, state)
tokens.extend(token_sequence)
state = env.step(tokens)
# RL update on abstract actions, not tokens
reward = env.get_reward()
log_prob = model.metacontroller.log_prob(abstract_actions)
loss = -reward * log_prob
loss.backward()
使用時機
次の場合に使用します:スパース報酬タスク、トークンレベル RL が遅すぎる場合、階層的構造が明らかな場合。
参考資料
- 抽象行動選択用のメタコントローラー
- コントローラーによる残差ストリーム修正
- 時間的抽象化のためのスイッチングゲート
- 抽象行動空間での RL
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- MIT
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。