汎用LLM・AI開発⭐ リポ 2品質スコア 59/100
learning-visual-priors-llm-pretraining
視覚的な事前知識を知覚と推論のコンポーネントに分解し、それぞれ異なるデータタイプで最適化します。推論はコード・数学コーパスから、知覚は多様なマルチモーダルソースから学習させることで、効率的なVLM事前学習パイプラインを構築できます。このアプローチにより、マルチモーダル知覚能力と推論能力のバランスの取れたモデルを実現します。
description の原文を見る
Decompose visual priors into perception and reasoning components, each optimized by distinct data types: reasoning from code/math corpora, perception from diverse modality-rich sources. Use to construct efficient VLM pretraining pipelines balancing multimodal perception with reasoning capability.
SKILL.md 本文
注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。
Learning Visual Priors Before Seeing: Optimized VLM Pretraining
本研究は、ビジョン言語モデルがテキストのみの事前学習中に視覚的理解をどのように発展させるかを分解し、知覚と推論のコンポーネントが異なるデータソースから生じることを特定しています。事前学習の混合比を適切に最適化することで、実務者は視覚的な微調整データを削減しながら、競争力のあるマルチモーダル性能を達成できます。
コアアーキテクチャ
- 知覚コンポーネント: 多様なコーパス(Webテキスト、書籍、科学論文)から出現
- 推論コンポーネント: 推論重視のデータ(コード、数学)でスケーリング
- 混合比の最適化: 60%の推論+15%の視覚的多様コンテンツが均衡の取れたトレードオフを実現
- 制御された実験: コンポーネント起源を特定する100以上の体系的な実験
実装ステップ
コンポーネント分析に基づいて事前学習データの混合比を設計します:
# VLM事前学習用の最適化されたデータ混合の構築
from vlm_mixture import DataMixture, PerceptionReasoningOptimizer
# コンポーネント対応のデータソースを定義
data_conf
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定