STARFlow-V: Генерация видео с помощью нормализующих потоков

Введение в нормализующие потоки

Нормализующие потоки (NFs) представляют собой генеративные модели, основанные на вероятностных методах, предназначенные для работы с непрерывными данными. В последнее время они привлекли внимание благодаря успехам в области генерации изображений.

Проблемы генерации видео

Однако в области генерации видео, где сложность пространственно-временных данных и вычислительные затраты значительно выше, современные системы в основном основаны на диффузионных моделях. В этой работе мы рассматриваем этот аспект и представляем STARFlow-V — генератор видео, основанный на нормализующих потоках.

Преимущества STARFlow-V

  • Обучение от начала до конца: Модель позволяет проводить обучение без необходимости в промежуточных этапах.
  • Надежное предсказание: STARFlow-V обеспечивает устойчивое предсказание причинно-следственных связей.
  • Оценка вероятности: Модель может оценивать вероятность генерации видео.

Структура модели

STARFlow-V работает в пространственно-временном латентном пространстве с использованием глобально-локальной архитектуры. Эта структура ограничивает причинные зависимости глобальным латентным пространством, одновременно сохраняя богатые локальные взаимодействия внутри кадров. Это помогает избежать накопления ошибок с течением времени, что является распространенной проблемой стандартных авторегрессионных моделей на основе диффузии.

Улучшение согласованности генерации

Кроме того, мы предлагаем метод сопоставления потока, который оснащает модель легким причинным денойзером для улучшения согласованности генерации видео в авторегрессионном формате. Для повышения эффективности выборки STARFlow-V использует…