UltraViCo: Преодоление ограничений экстраполяции в видео трансформерах

Введение

Несмотря на достижения, видео трансформеры диффузии все еще испытывают трудности с обобщением за пределами длины обучения. Мы называем эту проблему экстраполяцией длины видео.

Проблемы, с которыми мы сталкиваемся

Мы выделяем два основных режима сбоя:

  • Модельная периодическая повторяемость контента: Это происходит, когда модель начинает повторять одни и те же элементы.
  • Универсальное ухудшение качества: Это общее снижение качества выходного видео.

Анализ текущих решений

Предыдущие работы пытались решить проблему повторяемости с помощью позиционных кодировок, но при этом игнорировали ухудшение качества, что позволяло достичь лишь ограниченной экстраполяции.

Наш подход

В данной статье мы рассматриваем эту проблему с более основополагающей точки зрения: карты внимания, которые непосредственно определяют, как контекст влияет на выходные данные. Мы определяем, что оба режима сбоя возникают из единой причины: рассеяния внимания, когда токены за пределами окна обучения ослабляют усвоенные паттерны внимания. Это приводит к ухудшению качества, а повторяемость возникает как особый случай, когда это рассеяние становится структурированным в периодические паттерны внимания, вызванные гармоническими свойствами позиционных кодировок.

Предложение UltraViCo

Основываясь на этом понимании, мы предлагаем UltraViCo — метод, не требующий обучения, который подавляет внимание для токенов за пределами окна обучения с помощью постоянного коэффициента затухания. Объединяя решение обеих проблем, мы превосходим широкий набор базовых моделей.

Один комментарий к “UltraViCo: Преодоление ограничений экстраполяции в видео трансформерах

  1. Интересно, как UltraViCo справляется с проблемами экстраполяции в видео трансформерах. Упомянутое улучшение качества и снижение повторяемости контента может значительно повлиять на восприятие видео. Интересно, какие дальнейшие шаги планируются в этой области, чтобы продолжить развитие технологий?

Обсуждение закрыто.