Введение
Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющее качество и соответствие запросам, однако часто они выдают низкоразнообразные результаты при генерации нескольких видео из одного текстового запроса.
Постановка задачи
Мы подходим к этой проблеме как к задаче оптимизации политики на уровне множества, стремясь обучить политику, которая может охватывать широкий спектр правдоподобных результатов для данного запроса.
DPP-GRPO: новый подход
Для решения этой задачи мы представляем DPP-GRPO — новую структуру для разнообразной генерации видео, которая объединяет процессы детерминантных точек (DPP) и теорию групповой относительной оптимизации политики (GRPO) для явного поощрения разнообразия в генерациях.
Как это работает
- Явный сигнал разнообразия: Мы превращаем разнообразие в явный сигнал, накладывая убывающую отдачу на избыточные образцы (с помощью DPP).
- Обратная связь по группам: Мы обеспечиваем групповой отзыв по кандидатным наборам (с помощью GRPO).
Преимущества
Наша структура является универсальной и не зависит от модели, что позволяет достигать разнообразия в визуальном оформлении, движениях камеры и структуре сцен, не жертвуя соответствием запросам или качеством восприятия.
Результаты
Мы реализовали наш метод на WAN и CogVideoX, и показали, что он последовательно улучшает разнообразие видео на современных бенчмарках, таких как VBench.