Введение
Модели визуального языка (VLM) демонстрируют хорошие результаты в стандартных видео задачах, но испытывают трудности с физическим обоснованием, связанным с динамикой движения и пространственными взаимодействиями. Это ограничение снижает их способность интерпретировать реальные или сгенерированные AI видео и генерировать физически последовательный контент.
Подход
Мы предлагаем метод, который решает эту проблему, переводя контекстные подсказки физического мира в интерпретируемые представления, соответствующие восприятию, пониманию и рассуждениям VLM.
MASS-Bench
Мы представляем MASS-Bench — обширную базу данных, состоящую из 4,350 реальных и сгенерированных AI видео и 8,361 пар вопрос-ответ по видео, сосредоточенных на задачах понимания, связанных с физикой. База данных включает детализированные аннотации, такие как визуальные детекции, привязка подсегментов и полное 3D отслеживание движения объектов.
MASS
Мы также представляем MASS — метод, независимый от модели, который вводит пространственно-временные сигналы в языковое пространство VLM с помощью глубинного 3D кодирования и визуальной привязки, в сочетании с трекером движения для динамики объектов. Чтобы укрепить кросс-модальное соответствие и рассуждения, мы применяем обучение с подкреплением.
Результаты
Эксперименты и абляции показывают, что наши усовершенствованные VLM превосходят аналогичные модели в задачах понимания и интерпретации видео.
Метод MASS действительно может значительно повысить эффективность моделей VLM, особенно в решении физических задач. Интересно, какие конкретные примеры его применения вы могли бы привести?