Введение в Plan-X
Трансформеры диффузии продемонстрировали выдающиеся способности в визуальной синтезе, однако у них часто возникают трудности с высокоуровневым семантическим мышлением и долгосрочным планированием. Эти ограничения могут приводить к визуальным галлюцинациям и несоответствиям с пользовательскими инструкциями, особенно в сложных сценариях, связанных с пониманием сцен, взаимодействием человека с объектами, многоэтапными действиями и контекстным движением.
Что такое Plan-X?
Чтобы решить эти проблемы, мы предлагаем Plan-X, фреймворк, который явно усиливает высокоуровневое семантическое планирование для управления процессом генерации видео. В его основе лежит Семантический Планировщик — обучаемая мультимодальная языковая модель, которая анализирует намерения пользователя на основе текстовых подсказок и визуального контекста, а затем автогрессивно генерирует последовательность текстово-ориентированных пространственно-временных семантических токенов.
Как работает Plan-X?
Эти семантические токены, дополняющие высокоуровневые текстовые подсказки, служат структурированными «семантическими эскизами» на протяжении времени для модели диффузии видео, которая обладает силой в синтезе высококачественных визуальных деталей. Plan-X эффективно объединяет сильные стороны языковых моделей в мультимодальном контекстном мышлении и планировании, вместе с преимуществами моделей диффузии в генерации визуального контента.