Agent Skills by ALSEL
汎用データ・分析⭐ リポ 2品質スコア 54/100

video-temporal-reasoning

SpookyBenchを使用して、映像と言語を扱うモデルの時間パターン認識を診断・改善できます。SpookyBenchは、時間情報を空間的な手がかりから分離することで、モデルの真の時間理解能力を検証します。

description の原文を見る

Diagnose and improve temporal pattern recognition in video-language models using SpookyBench, which isolates temporal information from spatial cues.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

空間情報が不明瞭な場合の時間推論の改善

ビデオ言語モデルは明らかな時空パターン認識に優れていますが、時間情報のみが利用可能な場合には苦戦します。SpookyBenchはこの盲点を明らかにします。人間は純粋な時間シーケンス(生物学的シグナルや通信プロトコルなど)から時間パターンを認識できますが、現在のモデルは失敗します。このギャップはモデルが時間関係をどのように処理するかの根本的な制限を表しています。

中核的な問題はアーキテクチャです。ほとんどのビジョン言語モデルはフレームをキー値キャッシュに一度エンコードし、その後テキスト空間で純粋に推論します。この単一パス方式のエンコーディングは、静的な空間特徴を優先する代わりに時間力学を破棄します。一方、人間は時間の変化を積極的に追跡し、推論に統合します。これに対処するには、空間情報に関係なく時間パターン抽出を可能にするためのアーキテクチャ変更が必要です。

コアコンセプト

時間的盲目性は、空間情報が時間パターン認識を支配する場合に発生します。SpookyBenchは視覚的に「ノイズの多い」フレームで時間情報を分離します。ここで:

  • 空間的不明確性: 情報は明確な空間パターンのないノイズのような画像にエンコードされています
  • 時間エンコーディング: 時間シーケンスはすべての意味のある情報を含みます
  • **

...

詳細情報

作者
ADu2021
リポジトリ
ADu2021/skillXiv
ライセンス
不明
最終更新
2026/3/26

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: ADu2021 · ADu2021/skillXiv · ライセンス: ライセンス未確認