UltraFlux: Совместный дизайн данных и модели для генерации 4K изображений

Введение

Недавние достижения в области диффузионных трансформеров позволили добиться впечатляющих результатов в генерации изображений из текста с разрешением около 1K. Однако расширение этих технологий до нативного разрешения 4K при различных соотношениях сторон выявляет близкую взаимосвязь между позиционным кодированием, сжатием VAE и оптимизацией, что приводит к сбоям в работе модели.

Решение каждой из этих задач по отдельности не дает желаемого качества. Поэтому мы предлагаем подход совместного дизайна данных и модели и представляем UltraFlux, основанный на Flux DiT, который изначально обучается на разрешении 4K с использованием корпуса MultiAspect-4K-1M. Этот корпус содержит 1 миллион изображений с контролируемым охватом по соотношениям сторон и двуязычными подписями, а также богатой метаданной VLM/IQA для выборки, учитывающей разрешение и соотношение сторон.

Ключевые компоненты UltraFlux

  • Позиционное кодирование: Используется Resonance 2D RoPE с YaRN, которое учитывает окно обучения, частоту и соотношение сторон при 4K.
  • VAE: Применяется простая, не противоборствующая схема постобучения VAE, которая улучшает точность реконструкции 4K.
  • Целевая функция: Используется SNR-Aware Huber Wavelet, который уравновешивает градиенты по временным шагам и частотным диапазонам.
  • Обучение: Стратегия Stage-wise Aesthetic Curriculum Learning, которая сосредотачивает высокоэстетическое обучение на этапах с высоким уровнем шума.

Все эти компоненты совместно обеспечивают стабильную генерацию изображений высокого качества.

Один комментарий к “UltraFlux: Совместный дизайн данных и модели для генерации 4K изображений

  1. Интересно, как UltraFlux учитывает разные соотношения сторон для 4K изображений. Интересно узнать, как этот подход может быть применен в реальных проектах.

Обсуждение закрыто.