Оценка способностей видео-моделей к рассуждению через задачи лабиринта

Введение

Видео-модели достигли значительных успехов в создании высококачественного видео с согласованной динамикой движения. Аналогично переходу от генерации текста к основанному на тексте рассуждению в языковом моделировании, развитие видео-моделей побуждает нас задаться вопросом: могут ли видео-модели рассуждать через генерацию видео?

Преимущества видео для рассуждения

В отличие от дискретных текстовых корпусов, видео обеспечивает основание для рассуждения благодаря явным пространственным макетам и временной непрерывности, что создает идеальные условия для пространственного рассуждения.

VR-Bench: новый эталон для оценки

В данной работе мы исследуем парадигму рассуждения через видео и представляем VR-Bench — комплексный эталон, специально разработанный для систематической оценки способностей видео-моделей к рассуждению. Основываясь на задачах решения лабиринтов, которые требуют пространственного планирования и многошагового рассуждения, VR-Bench включает 7920 процедурно сгенерированных видео, охватывающих пять типов лабиринтов и различные визуальные стили.

Результаты анализа

Наши эмпирические исследования показывают, что SFT может эффективно выявлять способности к рассуждению у видео-моделей. Эти модели демонстрируют более сильное пространственное восприятие во время рассуждения, превосходя ведущие VLM и хорошо обобщая результаты на разных сценариях, задачах и уровнях сложности.

Заключение

Также мы обнаружили эффект масштабирования во время тестирования, что открывает новые возможности для дальнейшего изучения.

Один комментарий к “Оценка способностей видео-моделей к рассуждению через задачи лабиринта

  1. Интересно, что VR-Bench стал новым эталоном для оценки видео-моделей. Как вы видите его практическое применение в реальных задачах?

Обсуждение закрыто.