Введение
Модели «язык-зрение» (VLMs) отлично справляются с задачами в языковом пространстве, но имеют трудности с восприятием, требующим плотного визуального восприятия, например, пространственного мышления и геометрической осведомленности. Это ограничение связано с тем, что современные VLMs имеют недостаточные механизмы для захвата плотной визуальной информации в пространственных измерениях.
Chain-of-Visual-Thought (COVT)
Мы представляем Chain-of-Visual-Thought (COVT) — фреймворк, который позволяет VLMs рассуждать не только с помощью слов, но и через непрерывные визуальные токены — компактные латентные представления, которые кодируют богатые перцептивные сигналы.
Как работает COVT
В рамках небольшого бюджета из примерно 20 токенов, COVT извлекает знания из легковесных экспертов в области зрения, захватывая такие дополнительные свойства, как:
- 2D внешний вид
- 3D геометрия
- Пространственная компоновка
- Структура краев
Во время обучения VLM с COVT предсказывает эти визуальные токены, чтобы восстановить плотные сигналы супервайзинга (например, глубину, сегментацию, края и характеристики DINO).
Инференс и эффективность
На этапе инференса модель рассуждает непосредственно в пространстве непрерывных визуальных токенов, сохраняя эффективность, при этом опционально декодируя плотные предсказания для интерпретируемости.
Оценка
COVT был оценен по более чем десяти разнообразным тестам восприятия, включая CV-Bench и MMVP, демонстрируя его эффективность в различных сценариях.
Метод Chain-of-Visual-Thought действительно открывает новые горизонты в обработке визуальной информации. Особенно интересно, как это может улучшить решения моделей VLMs в сложных задачах. Есть ли примеры успешного применения COVT в реальных проектах?