汎用LLM・AI開発⭐ リポ 2品質スコア 59/100
safety-at-one-shot-lm-repair
ファインチューニングされたLLMの安全性を、1つの安全性サンプルのみを用いて復旧できます。モデルの有用性を損なわずに、安全性勾配の低ランク構造を活用することで、大量の有害なトレーニングデータによって侵害されたモデルでも、最小限のコストで修正が可能になります。
description の原文を見る
Recover safety alignment in fine-tuned LLMs using only a single safety example, without sacrificing utility. Leverages low-rank structure of safety gradients to enable minimal-cost correction even when models have been compromised by extensive harmful training data.
SKILL.md 本文
注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。
このスキルを使用すべき場合
- 誤ってファインチューニングされたモデルのセーフティ回復
- 新しいセーフティ問題が発生した場合の迅速なパッチング
- リソース制約のある設定でのミニマルなセーフティ修正
- モデルポートフォリオ全体の複数モデルセーフティ更新
- フルリトレーニングが実用的でないシナリオ
このスキルを使用すべきでない場合
- 初期モデル開発(包括的なセーフティトレーニングを使用してください)
- 広範なセーフティ認証が必要な状況
- 敵対的に危険にさらされたモデル(1つの例では不十分)
問題のまとめ
セーフティアライメント済みのLLMをドメインデータでファインチューニングすると、セーフティプロパティが大幅に損なわれる可能性があります。以前のソリューションでは、大量のセーフティトレーニングデータ(数百の例)と計算オーバーヘッドが必要であり、モデルのユーティリティを低下させることが多くありました。これにより、実践的なセーフティ修正が必要でありながら、モデル全体を再構築したり有用なタスクでのパフォーマンスを犠牲にしたくないという課題が生まれます。
ソリューション:低ランクセーフティグラディエント活用
セーフティ修正では、セーフティグラディエントの低ランク構造を利用して、単一例での回復を実現します。
class OneSh
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定