汎用LLM・AI開発⭐ リポ 2品質スコア 59/100
mint-cot-visual-reasoning
Interleave Tokensを活用して、数学的推論の各ステップで関連する画像領域を動的に選択し、細粒度のビジュアルトークンを数学的推論に統合できます。
description の原文を見る
Integrates fine-grained visual tokens into mathematical reasoning via Interleave Tokens that dynamically select relevant image regions for each reasoning step.
SKILL.md 本文
注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。
MINT-CoT: 数学推論における インターリーブされたビジュアルトークン
コアコンセプト
図を含む数学推論には、テキストの推論ステップとビジュアル領域の間の正確なアラインメントが必要です。既存のアプローチは粗いバウンディングボックスを使用しており、幾何学と図の解釈に不可欠な細粒度のビジュアル理解を制限しています。MINT-CoTは、デコーダ状態とビジュアルトークン間の類似度スコアを計算することで、推論中に非矩形画像領域の動的選択を可能にするInterleave Tokensを導入します。トークンレベルのアラインメントを含む54Kのデータセットと3段階の段階的なトレーニングにより、数学ベンチマークにおいて大幅な改善が実現します。
アーキテクチャ概要
- Interleave Tokens: デコーダの隠れ状態とビジュアルトークン埋め込み間の類似度を計算して関連するビジュアル領域を選択する特殊トークン
- 細粒度選択: 非矩形領域の選択を可能にし、任意の形状で図の要素をキャプチャします
- MINT-CoTデータセット: 推論ステップと画像領域間のトークンレベルのアラインメントを含む54Kのアノテーション済み問題
- 3段階トレーニング: テキストのみのCoT → インターリーブされたCoT教師あり → インターリーブされたC
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定