Инструкции в видео: визуальные сигналы для управления

Введение в визуальные сигналы

Совсем недавно модели генерации видео показали впечатляющие визуальные способности, позволяя предсказывать будущие кадры в соответствии с логическими и физическими подсказками в текущем наблюдении.

Инструкции в видео

В данной работе мы исследуем, могут ли такие возможности быть использованы для управляемой генерации видео из изображений, интерпретируя визуальные сигналы, встроенные в кадры, как инструкции. Мы называем этот подход Инструкции в видео.

Сравнение с традиционным управлением

В отличие от управления на основе текстовых подсказок, которое предоставляет описания, обладающие глобальным и грубым характером, Инструкции в видео кодируют пользовательские указания непосредственно в визуальной области через такие элементы, как наложенный текст, стрелки или траектории.

Преимущества визуальных инструкций

  • Явные, пространственно осведомленные и недвусмысленные соответствия между визуальными объектами и их предполагаемыми действиями.
  • Разные инструкции могут быть назначены различным объектам.

Эксперименты и результаты

Обширные эксперименты на трех современных генераторах, включая Veo 3.1, Kling 2.5 и Wan 2.2, показали, что видео модели могут надежно интерпретировать и выполнять такие визуально встроенные инструкции, особенно в сложных сценариях с несколькими объектами.