Введение в совпадение терминальной скорости
Мы предлагаем метод совпадения терминальной скорости (TVM), который является обобщением метода совпадения потоков и позволяет проводить высококачественное генеративное моделирование на одном или нескольких шагах.
Как работает TVM
TVM моделирует переход между любыми двумя временными шагами диффузии и регулирует свое поведение в конечный момент времени, а не в начальный. Мы доказываем, что TVM обеспечивает верхнюю границу на расстоянии 2-Васерштейна между распределениями данных и модели, когда модель является непрерывной по Липшицу.
Архитектурные изменения для стабильного обучения
Поскольку диффузионные трансформеры не обладают свойством непрерывности по Липшицу, мы вводим минимальные архитектурные изменения, которые обеспечивают стабильное обучение в одном этапе.
Эффективность TVM на практике
Чтобы сделать TVM эффективным в практическом применении, мы разработали объединённый ядро внимания, которое поддерживает обратные проходы на произведениях Якоби-Вектор, что хорошо масштабируется с архитектурами трансформеров.
Результаты на ImageNet
- На ImageNet-256×256 TVM достигает 3.29 FID с одной оценкой функции (NFE) и 1.99 FID с 4 NFE.
- Аналогично, на ImageNet-512×512 достигается 4.32 FID при 1 NFE и 2.94 FID при 4 NFE.
Эти результаты представляют собой лучшее в своем классе выполнение для моделей с одним или несколькими шагами, созданных с нуля.