Дистилляция без изображений через непрерывную консистентность

Введение

Дистилляция временных шагов является эффективным способом повышения эффективности генерации диффузионных моделей. Модель консистентности (CM), основанная на траекториях, демонстрирует значительный потенциал благодаря своей прочной теоретической основе и высококачественной генерации за несколько шагов.

Проблемы существующих методов

Тем не менее, текущие методы дистилляции с непрерывной временной консистентностью все еще сильно зависят от обучающих данных и вычислительных ресурсов, что затрудняет их использование в условиях ограниченных ресурсов и ограничивает их масштабируемость для различных областей.

Предложенная модель TBCM

Для решения этой проблемы мы предлагаем Модель консистентности с обратной траекторией (TBCM), которая устраняет зависимость от внешних обучающих данных, извлекая латентные представления непосредственно из траектории генерации модели-учителя.

Преимущества TBCM

  • Упрощение процесса дистилляции без необходимости в кодировании VAE и крупных наборах данных.
  • Значительное улучшение как эффективности, так и простоты подхода.
  • Естественный мост между распределением обучающих данных и данными на этапе вывода, что способствует более эффективной передаче знаний.

Результаты

Эмпирически, TBCM достигает 6.52 FID и 28.08 CLIP в MJHQ-30k при одном шаге.