Введение
Надежная функция награды является ключом к обучению с подкреплением (RL) в генерации изображений. Большинство современных подходов к RL опираются на предобученные модели предпочтений, которые выдают скалярные награды для приближения к человеческим предпочтениям. Однако такие награды часто не отражают человеческое восприятие и подвержены манипуляциям, когда более высокие оценки не соответствуют качественным изображениям.
Проблема традиционных моделей наград
Для решения этой проблемы мы представляем Adv-GRPO, фреймворк RL с противостоящей наградой, который итеративно обновляет как модель награды, так и генератор. Модель награды обучается с использованием референсных изображений в качестве положительных примеров, что позволяет в значительной степени избежать манипуляций.
Преимущества Adv-GRPO
В отличие от KL-регуляризации, которая ограничивает обновления параметров, наша обученная награда напрямую направляет генератор через его визуальные выходы, что приводит к созданию изображений более высокого качества. Кроме того, хотя оптимизация существующих функций награды может уменьшить манипуляции, их врожденные предвзятости остаются. Например, PickScore может ухудшать качество изображений, в то время как награды на основе OCR часто снижают эстетическую точность.
Использование изображения как награды
Чтобы устранить эти недостатки, мы принимаем само изображение в качестве награды, используя референсные изображения и модели зрительного восприятия (например, DINO) для предоставления богатых визуальных наград. Эти плотные…