Введение
Видео-модели достигли значительных успехов в создании высококачественного видео с согласованной динамикой движения. Аналогично переходу от генерации текста к основанному на тексте рассуждению в языковом моделировании, развитие видео-моделей побуждает нас задаться вопросом: могут ли видео-модели рассуждать через генерацию видео?
Преимущества видео для рассуждения
В отличие от дискретных текстовых корпусов, видео обеспечивает основание для рассуждения благодаря явным пространственным макетам и временной непрерывности, что создает идеальные условия для пространственного рассуждения.
VR-Bench: новый эталон для оценки
В данной работе мы исследуем парадигму рассуждения через видео и представляем VR-Bench — комплексный эталон, специально разработанный для систематической оценки способностей видео-моделей к рассуждению. Основываясь на задачах решения лабиринтов, которые требуют пространственного планирования и многошагового рассуждения, VR-Bench включает 7920 процедурно сгенерированных видео, охватывающих пять типов лабиринтов и различные визуальные стили.
Результаты анализа
Наши эмпирические исследования показывают, что SFT может эффективно выявлять способности к рассуждению у видео-моделей. Эти модели демонстрируют более сильное пространственное восприятие во время рассуждения, превосходя ведущие VLM и хорошо обобщая результаты на разных сценариях, задачах и уровнях сложности.
Заключение
Также мы обнаружили эффект масштабирования во время тестирования, что открывает новые возможности для дальнейшего изучения.
Интересно, что VR-Bench стал новым эталоном для оценки видео-моделей. Как вы видите его практическое применение в реальных задачах?