MASS: Пространственно-временное понимание для моделей VLM — Без рубрики

Введение

Модели визуального языка (VLM) демонстрируют хорошие результаты в стандартных видео задачах, но испытывают трудности с физическим обоснованием, связанным с динамикой движения и пространственными взаимодействиями. Это ограничение снижает их способность интерпретировать реальные или сгенерированные AI видео и генерировать физически последовательный контент.

Подход

Мы предлагаем метод, который решает эту проблему, переводя контекстные подсказки физического мира в интерпретируемые представления, соответствующие восприятию, пониманию и рассуждениям VLM.

MASS-Bench

Мы представляем MASS-Bench — обширную базу данных, состоящую из 4,350 реальных и сгенерированных AI видео и 8,361 пар вопрос-ответ по видео, сосредоточенных на задачах понимания, связанных с физикой. База данных включает детализированные аннотации, такие как визуальные детекции, привязка подсегментов и полное 3D отслеживание движения объектов.

MASS

Мы также представляем MASS — метод, независимый от модели, который вводит пространственно-временные сигналы в языковое пространство VLM с помощью глубинного 3D кодирования и визуальной привязки, в сочетании с трекером движения для динамики объектов. Чтобы укрепить кросс-модальное соответствие и рассуждения, мы применяем обучение с подкреплением.

Результаты

Эксперименты и абляции показывают, что наши усовершенствованные VLM превосходят аналогичные модели в задачах понимания и интерпретации видео.

Один комментарий к “MASS: Пространственно-временное понимание для моделей VLM”

Анна Ивановна:

15.01.2026 в 10:15

Метод MASS действительно может значительно повысить эффективность моделей VLM, особенно в решении физических задач. Интересно, какие конкретные примеры его применения вы могли бы привести?

Обсуждение закрыто.