Современные подходы к генерации видео всё чаще используют планирование промежуточных контрольных сигналов, таких как траектории объектов, чтобы улучшить временную согласованность и точность движения. Однако, как правило, эти методы применяют однократные планы, ограниченные простыми движениями, или требуют итеративной доработки, что связано с высокими вычислительными затратами.
Однократные планы часто недостаточно эффективны, а итеративные подходы требуют многократных вызовов генератора видео, что значительно увеличивает расходы на вычисления. Чтобы преодолеть эти ограничения, мы предлагаем метод SketchVerify.
SketchVerify — это основанная на верификации схема планирования, не требующая обучения. Она улучшает качество планирования движения, обеспечивая более динамично согласованные траектории (т.е. физически правдоподобные и соответствующие инструкциям) перед полной генерацией видео. Это достигается за счет введения процесса выборки и верификации на этапе тестирования.
Данная методика принимает на вход подсказку и эталонное изображение, затем предсказывает несколько кандидатных планов движения и оценивает их с помощью верификатора, который совместно анализирует семантическое соответствие инструкции и физическую правдоподобность. Для эффективной оценки кандидатных планов движения мы представляем каждую траекторию в виде легковесного видео-эскиза, комбинируя объекты на статичном фоне. Это позволяет избежать необходимости в дорогостоящем повторном синтезе на основе диффузии.