Chain-of-Visual-Thought: Как улучшить восприятие VLMs

Введение

Модели «язык-зрение» (VLMs) отлично справляются с задачами в языковом пространстве, но имеют трудности с восприятием, требующим плотного визуального восприятия, например, пространственного мышления и геометрической осведомленности. Это ограничение связано с тем, что современные VLMs имеют недостаточные механизмы для захвата плотной визуальной информации в пространственных измерениях.

Chain-of-Visual-Thought (COVT)

Мы представляем Chain-of-Visual-Thought (COVT) — фреймворк, который позволяет VLMs рассуждать не только с помощью слов, но и через непрерывные визуальные токены — компактные латентные представления, которые кодируют богатые перцептивные сигналы.

Как работает COVT

В рамках небольшого бюджета из примерно 20 токенов, COVT извлекает знания из легковесных экспертов в области зрения, захватывая такие дополнительные свойства, как:

  • 2D внешний вид
  • 3D геометрия
  • Пространственная компоновка
  • Структура краев

Во время обучения VLM с COVT предсказывает эти визуальные токены, чтобы восстановить плотные сигналы супервайзинга (например, глубину, сегментацию, края и характеристики DINO).

Инференс и эффективность

На этапе инференса модель рассуждает непосредственно в пространстве непрерывных визуальных токенов, сохраняя эффективность, при этом опционально декодируя плотные предсказания для интерпретируемости.

Оценка

COVT был оценен по более чем десяти разнообразным тестам восприятия, включая CV-Bench и MMVP, демонстрируя его эффективность в различных сценариях.

Один комментарий к “Chain-of-Visual-Thought: Как улучшить восприятие VLMs

  1. Метод Chain-of-Visual-Thought действительно открывает новые горизонты в обработке визуальной информации. Особенно интересно, как это может улучшить решения моделей VLMs в сложных задачах. Есть ли примеры успешного применения COVT в реальных проектах?

Обсуждение закрыто.