Введение
Недавние успехи в области генеративных видео моделей, таких как Veo-3, продемонстрировали удивительные способности к нулевому выводу, что создало потребность в систематической и надежной оценке.
Что такое V-ReasonBench?
Мы представляем V-ReasonBench — стандарт, разработанный для оценки видео-рассуждений по четырем ключевым направлениям:
- структурированное решение задач,
- пространственная когниция,
- инференция на основе паттернов,
- физическая динамика.
Структура V-ReasonBench
Стандарт основан как на синтетических, так и на реальных последовательностях изображений и предоставляет разнообразный набор задач, ответ на которые можно проверить. Эти задачи являются воспроизводимыми, масштабируемыми и однозначными.
Оценка моделей
Оценка шести современных видео моделей показала четкие различия по направлениям, с сильной вариацией в структурном, пространственном, паттерн-основанном и физическом рассуждении. Мы также сравнили видео модели с мощными изображенческими моделями, проанализировали общие галлюцинационные поведения и изучили, как продолжительность видео влияет на рассуждение по цепочке кадров.
Заключение
В целом, V-ReasonBench предлагает единый и воспроизводимый фреймворк для измерения видео-рассуждений и нацелен на поддержку разработки моделей с более надежными и согласованными с человеческими навыками рассуждения.