Совпадение терминальной скорости в генеративном моделировании

Введение в совпадение терминальной скорости

Мы предлагаем метод совпадения терминальной скорости (TVM), который является обобщением метода совпадения потоков и позволяет проводить высококачественное генеративное моделирование на одном или нескольких шагах.

Как работает TVM

TVM моделирует переход между любыми двумя временными шагами диффузии и регулирует свое поведение в конечный момент времени, а не в начальный. Мы доказываем, что TVM обеспечивает верхнюю границу на расстоянии 2-Васерштейна между распределениями данных и модели, когда модель является непрерывной по Липшицу.

Архитектурные изменения для стабильного обучения

Поскольку диффузионные трансформеры не обладают свойством непрерывности по Липшицу, мы вводим минимальные архитектурные изменения, которые обеспечивают стабильное обучение в одном этапе.

Эффективность TVM на практике

Чтобы сделать TVM эффективным в практическом применении, мы разработали объединённый ядро внимания, которое поддерживает обратные проходы на произведениях Якоби-Вектор, что хорошо масштабируется с архитектурами трансформеров.

Результаты на ImageNet

  • На ImageNet-256×256 TVM достигает 3.29 FID с одной оценкой функции (NFE) и 1.99 FID с 4 NFE.
  • Аналогично, на ImageNet-512×512 достигается 4.32 FID при 1 NFE и 2.94 FID при 4 NFE.

Эти результаты представляют собой лучшее в своем классе выполнение для моделей с одним или несколькими шагами, созданных с нуля.