perception-aware-policy-optimization

マルチモーダルLLMの知覚エラーをKLダイバージェンスベースの知覚ロスで直接的に改善し、視覚依存タスクにおける視覚推論性能を8～19%向上させます。報酬調整のみに依存せず、知覚認識シグナルをポリシー勾配に統合することで、より効果的な最適化を実現します。

Perception-Aware Policy Optimization: マルチモーダル推論を知覚層で修正

大規模マルチモーダルモデル(LMM)は画像の説明には優れていますが、視覚的理解が必要な推論タスクでは失敗します。エラーの67%は推論能力ではなく知覚の失敗に起因しています。従来の報酬ベースRLは視覚と推論を結合されたものとして扱い、モデルが画像を誤解したのか推論の誤りを犯したのかを区別することなく、答えが間違っているときに一律のペナルティを適用します。PAPOはこれを解決するため、モデルの出力がどの程度視覚入力に依存しているかを直接測定し(画像パッチの60%をマスキングして)、この発散を最適化信号として使用し、モデルに幻覚を見るのではなく実際の視覚コンテンツに推論を根拠付けるよう強制します。

マルチモーダルベンチマーク上で視覚言語モデルをファインチューニングする場合(視覚的数学問題、グラフ、図、空間推論)、知覚層がボトルネックになります。標準的な教師あり学習によるファインチューニングは幻覚を修正できません。報酬ベースRLはグローバルなポリシーを学習しますが、どのエラーが不十分な視覚的根拠付けに起因しているかを特定しません。知覚対応ポリシー最適化は、視覚が破損されると出力が変わらない出力に直接ペナルティを与え、モデルが見ているものを理解していることを証明するよう強制し

...

perception-aware-policy-optimization

SKILL.md 本文

Perception-Aware Policy Optimization: マルチモーダル推論を知覚層で修正

詳細情報