Введение в визуальные сигналы
Совсем недавно модели генерации видео показали впечатляющие визуальные способности, позволяя предсказывать будущие кадры в соответствии с логическими и физическими подсказками в текущем наблюдении.
Инструкции в видео
В данной работе мы исследуем, могут ли такие возможности быть использованы для управляемой генерации видео из изображений, интерпретируя визуальные сигналы, встроенные в кадры, как инструкции. Мы называем этот подход Инструкции в видео.
Сравнение с традиционным управлением
В отличие от управления на основе текстовых подсказок, которое предоставляет описания, обладающие глобальным и грубым характером, Инструкции в видео кодируют пользовательские указания непосредственно в визуальной области через такие элементы, как наложенный текст, стрелки или траектории.
Преимущества визуальных инструкций
- Явные, пространственно осведомленные и недвусмысленные соответствия между визуальными объектами и их предполагаемыми действиями.
- Разные инструкции могут быть назначены различным объектам.
Эксперименты и результаты
Обширные эксперименты на трех современных генераторах, включая Veo 3.1, Kling 2.5 и Wan 2.2, показали, что видео модели могут надежно интерпретировать и выполнять такие визуально встроенные инструкции, особенно в сложных сценариях с несколькими объектами.