汎用LLM・AI開発⭐ リポ 2品質スコア 59/100
evolution-strategies-llm-finetuning
バックプロパゲーションなしで進化戦略を数十億パラメータのLLMにスケーリングでき、多様なモデル、報酬時間軸、評価タスク全体で優れた堅牢性と安定性を実現します。勾配計算のオーバーヘッドを排除しながら、強化学習手法を上回るパフォーマンスを発揮します。
description の原文を見る
Scale Evolution Strategies to billion-parameter LLMs without backpropagation for superior robustness and stability across diverse models, reward horizons, and evaluation tasks. Outperforms RL methods while eliminating gradient computation overhead.
SKILL.md 本文
注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。
Evolution Strategies Fine-Tuning: 大規模言語モデルの直接パラメータ最適化
Outcome
人口ベースの直接パラメータサーチを通じて大規模言語モデルを微調整し、多様なアーキテクチャ全体で堅牢なモデル改善を実現します。勾配ベースのRLメソッドと比べて15.5倍低い訓練分散を達成し、明示的なペナルティなしで報酬ハッキングに対する耐性を提供します。
Problem Context
現在のLLM微調整は、勾配ベースの強化学習(PPO、GRPO)を通じた逆伝播に依存していますが、以下の課題があります:
- 疎で長期の報酬: 推論タスクでは中間的な教師信号が利用不可であることが多く、長いシーケンスを通じた勾配が不安定になる
- 報酬ハッキング: 勾配ベースの最適化は明示的なKL制約なしでループホール(短いが無意味な出力)を利用する
- クロスモデル脆弱性: 微調整の成功は基本モデルアーキテクチャ全体で劇的に異なり、GRPOは特定のモデルで完全に失敗する
- 訓練不安定性: 実行間での高い分散(ESより15.5倍高い)は、大規模デプロイメント向けの高価な微調整を信頼できなくします
- 計算オーバーヘッド: 逆伝播とKLペナルティ計算は相当なメモリと計算負荷を追加する
Evolution Strat
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定