MagicWorld: Интерактивное исследование видео миров

Введение в MagicWorld

Современные методы интерактивного моделирования видео миров генерируют эволюцию сцен в зависимости от инструкций пользователей. Несмотря на впечатляющие результаты, остаются две ключевые проблемы.

Ограничения существующих методов

  • Неполное использование 3D геометрии: Методы не полностью используют соответствие между движением сцены, управляемым инструкциями, и базовой 3D геометрией, что приводит к структурной нестабильности при изменении угла обзора.
  • Потеря исторической информации: При многократном взаимодействии они легко забывают историческую информацию, что приводит к накоплению ошибок и прогрессирующему искажению семантики и структуры сцены.

Решение: MagicWorld

Мы предлагаем MagicWorld — интерактивную модель видео мира, которая интегрирует 3D геометрические приоритеты и механизмы исторического извлечения.

Как работает MagicWorld

MagicWorld начинается с одного изображения сцены, использует действия пользователя для динамической эволюции сцены и автогрессивно синтезирует непрерывные сцены.

Ключевые компоненты

  • Модуль 3D геометрии с управлением действиями (AG3D): Конструирует облако точек из первого кадра каждого взаимодействия и соответствующего действия, предоставляя четкие геометрические ограничения для переходов между углами обзора и улучшая структурную согласованность.
  • Механизм извлечения исторической кэша (HCR): Извлекает релевантную историческую информацию для поддержки взаимодействия.