Введение
Несмотря на достижения, видео трансформеры диффузии все еще испытывают трудности с обобщением за пределами длины обучения. Мы называем эту проблему экстраполяцией длины видео.
Проблемы, с которыми мы сталкиваемся
Мы выделяем два основных режима сбоя:
- Модельная периодическая повторяемость контента: Это происходит, когда модель начинает повторять одни и те же элементы.
- Универсальное ухудшение качества: Это общее снижение качества выходного видео.
Анализ текущих решений
Предыдущие работы пытались решить проблему повторяемости с помощью позиционных кодировок, но при этом игнорировали ухудшение качества, что позволяло достичь лишь ограниченной экстраполяции.
Наш подход
В данной статье мы рассматриваем эту проблему с более основополагающей точки зрения: карты внимания, которые непосредственно определяют, как контекст влияет на выходные данные. Мы определяем, что оба режима сбоя возникают из единой причины: рассеяния внимания, когда токены за пределами окна обучения ослабляют усвоенные паттерны внимания. Это приводит к ухудшению качества, а повторяемость возникает как особый случай, когда это рассеяние становится структурированным в периодические паттерны внимания, вызванные гармоническими свойствами позиционных кодировок.
Предложение UltraViCo
Основываясь на этом понимании, мы предлагаем UltraViCo — метод, не требующий обучения, который подавляет внимание для токенов за пределами окна обучения с помощью постоянного коэффициента затухания. Объединяя решение обеих проблем, мы превосходим широкий набор базовых моделей.
Интересно, как UltraViCo справляется с проблемами экстраполяции в видео трансформерах. Упомянутое улучшение качества и снижение повторяемости контента может значительно повлиять на восприятие видео. Интересно, какие дальнейшие шаги планируются в этой области, чтобы продолжить развитие технологий?