Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 2品質スコア 59/100

progressive-residual-warmup

残差接続に時間依存的なスケーリングを導入することで、LLMの収束性と下流タスクの性能を向上させます。浅い層が先に学習してから深い層が活性化されるようにすることで、モデルの事前学習時に適用すると、0.4〜4.86のパープレキシティ削減を実現できます。

description の原文を見る

Improves LLM convergence and downstream task performance by introducing time-dependent scaling to residual connections, enabling shallow layers to learn first before deeper layers activate. Apply during model pretraining to achieve 0.4-4.86 perplexity reduction.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

Progressive Residual Warmup: レイヤー単位の活性化スケジューリングを通じた学習安定性の向上

深いトランスフォーマーモデルは、事前学習中の最適化が不安定になる問題を抱えています。全てのレイヤーが初期化から同時に表現を修正するため、下流のレイヤーが上流のレイヤーからの不完全な入力を処理する競合する学習シグナルが発生します。これにより、非効率な収束とモデル全体の深さにおける特徴学習が劣化します。

Progressive Residual Warmup (ProRes) は、残差接続に時間依存のスケーリング係数を導入することでこの問題を解決します。浅いレイヤーは直ちに活性化し、深いレイヤーは徐々に完全な容量に「ウォームアップ」するため、浅いレイヤーは下流のレイヤーが学習を開始する前に安定した表現を確立します。この調整された活性化により、表現の崩壊を防ぎ、最適化の軌跡を改善します。

基本概念

残差接続は通常、以下のように表現されます: x_{l+1} = x_l + F(Norm(x_l))

ProRes はこれを次のように修正します: x_{l+1} = x_l + α(l,t) · F(Norm(x_l))

スケーリング係数 α(l,t) はレイヤーの深さ (l) と学習ステップ (t) に基づいた決定論的な値であり、0 から 1 に段階

...

詳細情報

作者
ADu2021
リポジトリ
ADu2021/skillXiv
ライセンス
不明
最終更新
2026/3/26

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: ADu2021 · ADu2021/skillXiv · ライセンス: ライセンス未確認