Введение в MagicWorld
Современные методы интерактивного моделирования видео миров генерируют эволюцию сцен в зависимости от инструкций пользователей. Несмотря на впечатляющие результаты, остаются две ключевые проблемы.
Ограничения существующих методов
- Неполное использование 3D геометрии: Методы не полностью используют соответствие между движением сцены, управляемым инструкциями, и базовой 3D геометрией, что приводит к структурной нестабильности при изменении угла обзора.
- Потеря исторической информации: При многократном взаимодействии они легко забывают историческую информацию, что приводит к накоплению ошибок и прогрессирующему искажению семантики и структуры сцены.
Решение: MagicWorld
Мы предлагаем MagicWorld — интерактивную модель видео мира, которая интегрирует 3D геометрические приоритеты и механизмы исторического извлечения.
Как работает MagicWorld
MagicWorld начинается с одного изображения сцены, использует действия пользователя для динамической эволюции сцены и автогрессивно синтезирует непрерывные сцены.
Ключевые компоненты
- Модуль 3D геометрии с управлением действиями (AG3D): Конструирует облако точек из первого кадра каждого взаимодействия и соответствующего действия, предоставляя четкие геометрические ограничения для переходов между углами обзора и улучшая структурную согласованность.
- Механизм извлечения исторической кэша (HCR): Извлекает релевантную историческую информацию для поддержки взаимодействия.