Введение в визуальные авторегрессионные модели
Визуальные авторегрессионные (VAR) модели в последнее время привлекают значительное внимание благодаря своей инновационной парадигме предсказания. Они предлагают заметные преимущества в эффективности вывода и качестве изображений по сравнению с традиционными многошаговыми авторегрессионными (AR) и диффузионными моделями.
Проблема разнообразия
Несмотря на свою эффективность, VAR модели часто сталкиваются с проблемой коллапса разнообразия, то есть уменьшением вариативности выводов. Это похоже на ситуацию, наблюдаемую в диффузионных моделях с небольшим количеством шагов.
Представление DiverseVAR
В этой статье мы представляем DiverseVAR — простой, но эффективный подход, который восстанавливает генерирующее разнообразие VAR моделей без необходимости дополнительного обучения. Наш анализ показывает, что ключевым компонентом карты признаков является важный фактор, управляющий формированием разнообразия на ранних масштабах.
Как работает DiverseVAR
DiverseVAR эффективно разблокирует внутренний генерирующий потенциал VAR моделей, подавляя ключевой компонент на входе модели и усиливая его на выходе. Это позволяет сохранить высокое качество синтеза.
Результаты экспериментов
Эмпирические результаты показывают, что наш подход значительно улучшает генерирующее разнообразие при незначительном влиянии на производительность.