V-ReasonBench: Единый стандарт оценки моделей генерации видео

Введение

Недавние успехи в области генеративных видео моделей, таких как Veo-3, продемонстрировали удивительные способности к нулевому выводу, что создало потребность в систематической и надежной оценке.

Что такое V-ReasonBench?

Мы представляем V-ReasonBench — стандарт, разработанный для оценки видео-рассуждений по четырем ключевым направлениям:

  • структурированное решение задач,
  • пространственная когниция,
  • инференция на основе паттернов,
  • физическая динамика.

Структура V-ReasonBench

Стандарт основан как на синтетических, так и на реальных последовательностях изображений и предоставляет разнообразный набор задач, ответ на которые можно проверить. Эти задачи являются воспроизводимыми, масштабируемыми и однозначными.

Оценка моделей

Оценка шести современных видео моделей показала четкие различия по направлениям, с сильной вариацией в структурном, пространственном, паттерн-основанном и физическом рассуждении. Мы также сравнили видео модели с мощными изображенческими моделями, проанализировали общие галлюцинационные поведения и изучили, как продолжительность видео влияет на рассуждение по цепочке кадров.

Заключение

В целом, V-ReasonBench предлагает единый и воспроизводимый фреймворк для измерения видео-рассуждений и нацелен на поддержку разработки моделей с более надежными и согласованными с человеческими навыками рассуждения.