progressive-residual-warmup

残差接続に時間依存的なスケーリングを導入することで、LLMの収束性と下流タスクの性能を向上させます。浅い層が先に学習してから深い層が活性化されるようにすることで、モデルの事前学習時に適用すると、0.4〜4.86のパープレキシティ削減を実現できます。

Progressive Residual Warmup: レイヤー単位の活性化スケジューリングを通じた学習安定性の向上

深いトランスフォーマーモデルは、事前学習中の最適化が不安定になる問題を抱えています。全てのレイヤーが初期化から同時に表現を修正するため、下流のレイヤーが上流のレイヤーからの不完全な入力を処理する競合する学習シグナルが発生します。これにより、非効率な収束とモデル全体の深さにおける特徴学習が劣化します。

Progressive Residual Warmup (ProRes) は、残差接続に時間依存のスケーリング係数を導入することでこの問題を解決します。浅いレイヤーは直ちに活性化し、深いレイヤーは徐々に完全な容量に「ウォームアップ」するため、浅いレイヤーは下流のレイヤーが学習を開始する前に安定した表現を確立します。この調整された活性化により、表現の崩壊を防ぎ、最適化の軌跡を改善します。

基本概念

残差接続は通常、以下のように表現されます: x_{l+1} = x_l + F(Norm(x_l))

ProRes はこれを次のように修正します: x_{l+1} = x_l + α(l,t) · F(Norm(x_l))

スケーリング係数 α(l,t) はレイヤーの深さ (l) と学習ステップ (t) に基づいた決定論的な値であり、0 から 1 に段階

...

progressive-residual-warmup

SKILL.md 本文

Progressive Residual Warmup: レイヤー単位の活性化スケジューリングを通じた学習安定性の向上

基本概念

詳細情報