Введение
Недавние достижения в области диффузионных трансформеров позволили добиться впечатляющих результатов в генерации изображений из текста с разрешением около 1K. Однако расширение этих технологий до нативного разрешения 4K при различных соотношениях сторон выявляет близкую взаимосвязь между позиционным кодированием, сжатием VAE и оптимизацией, что приводит к сбоям в работе модели.
Решение каждой из этих задач по отдельности не дает желаемого качества. Поэтому мы предлагаем подход совместного дизайна данных и модели и представляем UltraFlux, основанный на Flux DiT, который изначально обучается на разрешении 4K с использованием корпуса MultiAspect-4K-1M. Этот корпус содержит 1 миллион изображений с контролируемым охватом по соотношениям сторон и двуязычными подписями, а также богатой метаданной VLM/IQA для выборки, учитывающей разрешение и соотношение сторон.
Ключевые компоненты UltraFlux
- Позиционное кодирование: Используется Resonance 2D RoPE с YaRN, которое учитывает окно обучения, частоту и соотношение сторон при 4K.
- VAE: Применяется простая, не противоборствующая схема постобучения VAE, которая улучшает точность реконструкции 4K.
- Целевая функция: Используется SNR-Aware Huber Wavelet, который уравновешивает градиенты по временным шагам и частотным диапазонам.
- Обучение: Стратегия Stage-wise Aesthetic Curriculum Learning, которая сосредотачивает высокоэстетическое обучение на этапах с высоким уровнем шума.
Все эти компоненты совместно обеспечивают стабильную генерацию изображений высокого качества.
Интересно, как UltraFlux учитывает разные соотношения сторон для 4K изображений. Интересно узнать, как этот подход может быть применен в реальных проектах.