G^2VLM: Модель языка с геометрической основой для 3D-реконструкции

Введение

Модели визуального языка (VLM) всё ещё недостаточно устойчивы в области пространственного интеллекта, показывая слабые результаты в задачах пространственного понимания и рассуждений. Мы связываем этот пробел с отсутствием процесса обучения визуальной геометрии, способного реконструировать 3D-пространство из 2D-изображений.

Что такое G^2VLM?

Мы представляем G^2VLM — модель визуального языка с геометрической основой, которая объединяет два основных аспекта пространственного интеллекта: пространственную 3D-реконструкцию и пространственное понимание. G^2VLM использует изученные 3D-геометрические характеристики для прямого предсказания 3D-атрибутов и улучшения задач пространственного рассуждения с помощью контекстного обучения и перекрёстного рассуждения.

Преимущества G^2VLM

  • Высокая масштабируемость для пространственного понимания.
  • Обучение на обширных данных из многократных изображений и видео.
  • Использование преимуществ 3D-визуальных приоров, которые обычно труднодоступны для сбора.

Результаты экспериментов

Экспериментальные результаты показывают, что G^2VLM успешно справляется с обеими задачами, достигая результатов, сопоставимых с современными моделями 3D-реконструкции, а также показывая лучшие или конкурентоспособные результаты в задачах пространственного понимания и рассуждений.