video-temporal-reasoning
SpookyBenchを使用して、映像と言語を扱うモデルの時間パターン認識を診断・改善できます。SpookyBenchは、時間情報を空間的な手がかりから分離することで、モデルの真の時間理解能力を検証します。
description の原文を見る
Diagnose and improve temporal pattern recognition in video-language models using SpookyBench, which isolates temporal information from spatial cues.
SKILL.md 本文
空間情報が不明瞭な場合の時間推論の改善
ビデオ言語モデルは明らかな時空パターン認識に優れていますが、時間情報のみが利用可能な場合には苦戦します。SpookyBenchはこの盲点を明らかにします。人間は純粋な時間シーケンス(生物学的シグナルや通信プロトコルなど)から時間パターンを認識できますが、現在のモデルは失敗します。このギャップはモデルが時間関係をどのように処理するかの根本的な制限を表しています。
中核的な問題はアーキテクチャです。ほとんどのビジョン言語モデルはフレームをキー値キャッシュに一度エンコードし、その後テキスト空間で純粋に推論します。この単一パス方式のエンコーディングは、静的な空間特徴を優先する代わりに時間力学を破棄します。一方、人間は時間の変化を積極的に追跡し、推論に統合します。これに対処するには、空間情報に関係なく時間パターン抽出を可能にするためのアーキテクチャ変更が必要です。
コアコンセプト
時間的盲目性は、空間情報が時間パターン認識を支配する場合に発生します。SpookyBenchは視覚的に「ノイズの多い」フレームで時間情報を分離します。ここで:
- 空間的不明確性: 情報は明確な空間パターンのないノイズのような画像にエンコードされています
- 時間エンコーディング: 時間シーケンスはすべての意味のある情報を含みます
- **
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定