Модели генерации видео как эффективные модели вознаграждения — Без рубрики

Введение

Обучение с использованием обратной связи о вознаграждении (ReFL) показало свою эффективность в согласовании генерации изображений с человеческими предпочтениями. Однако его применение к генерации видео сталкивается с рядом серьезных проблем.

Проблемы существующих моделей вознаграждения для видео

Существующие модели вознаграждения для видео основываются на моделях, сочетающих визуальные и языковые данные, которые разработаны для работы с пиксельными входами. Это ограничивает оптимизацию ReFL до почти полного этапа денойзинга после дорогостоящего декодирования VAE.

Недостатки пиксельного подхода

Высокие требования к памяти.
Увеличенное время обучения.
Отсутствие раннего контроля на поздних стадиях оптимизации.

В результате этого подхода совершенствуется только визуальное качество, а не основные динамические движения и структурная согласованность.

Наше решение

В данной работе мы показываем, что предварительно обученные модели генерации видео естественным образом подходят для моделирования вознаграждения в зашумленном латентном пространстве. Они специально разработаны для обработки зашумленных латентных представлений на произвольных временных шагах и сохраняют временную информацию благодаря своим последовательным моделирующим возможностям.

Предложенная методология

Мы предлагаем методику, известную как Обучение с Обратной Связью о Вознаграждении Процесса (PRFL), которая осуществляет оптимизацию предпочтений полностью в латентном пространстве. Это позволяет эффективно выполнять обратное распространение градиента на протяжении всей цепочки денойзинга без декодирования VAE.