Введение
Обучение с использованием обратной связи о вознаграждении (ReFL) показало свою эффективность в согласовании генерации изображений с человеческими предпочтениями. Однако его применение к генерации видео сталкивается с рядом серьезных проблем.
Проблемы существующих моделей вознаграждения для видео
Существующие модели вознаграждения для видео основываются на моделях, сочетающих визуальные и языковые данные, которые разработаны для работы с пиксельными входами. Это ограничивает оптимизацию ReFL до почти полного этапа денойзинга после дорогостоящего декодирования VAE.
Недостатки пиксельного подхода
- Высокие требования к памяти.
- Увеличенное время обучения.
- Отсутствие раннего контроля на поздних стадиях оптимизации.
В результате этого подхода совершенствуется только визуальное качество, а не основные динамические движения и структурная согласованность.
Наше решение
В данной работе мы показываем, что предварительно обученные модели генерации видео естественным образом подходят для моделирования вознаграждения в зашумленном латентном пространстве. Они специально разработаны для обработки зашумленных латентных представлений на произвольных временных шагах и сохраняют временную информацию благодаря своим последовательным моделирующим возможностям.
Предложенная методология
Мы предлагаем методику, известную как Обучение с Обратной Связью о Вознаграждении Процесса (PRFL), которая осуществляет оптимизацию предпочтений полностью в латентном пространстве. Это позволяет эффективно выполнять обратное распространение градиента на протяжении всей цепочки денойзинга без декодирования VAE.