DeCo: Эффективная диффузия пикселей для генерации изображений

Что такое диффузия пикселей?

Диффузия пикселей нацелена на прямую генерацию изображений в пиксельном пространстве. Этот подход позволяет избежать ограничений вариационных автокодеров (VAE) при двухступенчатой латентной диффузии, обеспечивая большую мощность модели.

Проблемы существующих моделей

Существующие модели диффузии пикселей часто сталкиваются с медленной тренировкой и инференсом. Обычно они моделируют как высокочастотные сигналы, так и низкочастотную семантику в рамках одного диффузионного трансформера (DiT).

Предложение: фреймворк DeCo

Для более эффективной реализации диффузии пикселей мы предлагаем фреймворк частотной декомпозиции. Мы разделяем процесс генерации высокочастотных и низкочастотных компонентов, используя легкий декодер пикселей для генерации деталей, основанных на семантическом управлении от DiT. Это позволяет DiT сосредоточиться на моделировании низкочастотной семантики.

Потеря и эксперименты

Кроме того, мы вводим потерю, учитывающую частоту, которая подчеркивает визуально значимые частоты, подавляя незначительные. Обширные эксперименты показывают, что DeCo демонстрирует превосходные результаты среди моделей диффузии пикселей, достигая FID 1.62 (256×256) и 2.22 (512×512) на ImageNet, что позволяет сократить разрыв с методами латентной диффузии.