Разнообразная генерация видео с помощью DPP и GRPO

Введение

Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющее качество и соответствие запросам, однако часто они выдают низкоразнообразные результаты при генерации нескольких видео из одного текстового запроса.

Постановка задачи

Мы подходим к этой проблеме как к задаче оптимизации политики на уровне множества, стремясь обучить политику, которая может охватывать широкий спектр правдоподобных результатов для данного запроса.

DPP-GRPO: новый подход

Для решения этой задачи мы представляем DPP-GRPO — новую структуру для разнообразной генерации видео, которая объединяет процессы детерминантных точек (DPP) и теорию групповой относительной оптимизации политики (GRPO) для явного поощрения разнообразия в генерациях.

Как это работает

  • Явный сигнал разнообразия: Мы превращаем разнообразие в явный сигнал, накладывая убывающую отдачу на избыточные образцы (с помощью DPP).
  • Обратная связь по группам: Мы обеспечиваем групповой отзыв по кандидатным наборам (с помощью GRPO).

Преимущества

Наша структура является универсальной и не зависит от модели, что позволяет достигать разнообразия в визуальном оформлении, движениях камеры и структуре сцен, не жертвуя соответствием запросам или качеством восприятия.

Результаты

Мы реализовали наш метод на WAN и CogVideoX, и показали, что он последовательно улучшает разнообразие видео на современных бенчмарках, таких как VBench.