Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 2品質スコア 59/100

safety-at-one-shot-lm-repair

ファインチューニングされたLLMの安全性を、1つの安全性サンプルのみを用いて復旧できます。モデルの有用性を損なわずに、安全性勾配の低ランク構造を活用することで、大量の有害なトレーニングデータによって侵害されたモデルでも、最小限のコストで修正が可能になります。

description の原文を見る

Recover safety alignment in fine-tuned LLMs using only a single safety example, without sacrificing utility. Leverages low-rank structure of safety gradients to enable minimal-cost correction even when models have been compromised by extensive harmful training data.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

このスキルを使用すべき場合

  • 誤ってファインチューニングされたモデルのセーフティ回復
  • 新しいセーフティ問題が発生した場合の迅速なパッチング
  • リソース制約のある設定でのミニマルなセーフティ修正
  • モデルポートフォリオ全体の複数モデルセーフティ更新
  • フルリトレーニングが実用的でないシナリオ

このスキルを使用すべきでない場合

  • 初期モデル開発(包括的なセーフティトレーニングを使用してください)
  • 広範なセーフティ認証が必要な状況
  • 敵対的に危険にさらされたモデル(1つの例では不十分)

問題のまとめ

セーフティアライメント済みのLLMをドメインデータでファインチューニングすると、セーフティプロパティが大幅に損なわれる可能性があります。以前のソリューションでは、大量のセーフティトレーニングデータ(数百の例)と計算オーバーヘッドが必要であり、モデルのユーティリティを低下させることが多くありました。これにより、実践的なセーフティ修正が必要でありながら、モデル全体を再構築したり有用なタスクでのパフォーマンスを犠牲にしたくないという課題が生まれます。

ソリューション:低ランクセーフティグラディエント活用

セーフティ修正では、セーフティグラディエントの低ランク構造を利用して、単一例での回復を実現します。

class OneSh

...

詳細情報

作者
ADu2021
リポジトリ
ADu2021/skillXiv
ライセンス
不明
最終更新
2026/3/26

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: ADu2021 · ADu2021/skillXiv · ライセンス: ライセンス未確認