Введение
«Мыслить с помощью изображений» стало эффективной парадигмой для развития визуального мышления, выходя за рамки текстовых цепочек. Этот подход включает визуальные доказательства в промежуточные этапы рассуждения. Однако существующие методы не достигают уровня абстрактного визуального мышления, характерного для человека, так как их гибкость ограничена внешними инструментами.
Монет: Новая методология
В данной работе мы представляем Monet — тренировочную платформу, которая позволяет мультимодальным крупным языковым моделям (MLLM) мыслить прямо в латентном визуальном пространстве, создавая непрерывные встраивания, которые функционируют как промежуточные визуальные мысли.
Основные проблемы
Мы выделяем две ключевые проблемы при обучении MLLM для латентного визуального мышления:
- высокая вычислительная стоимость выравнивания латентного зрения;
- недостаточный контроль над латентными встраиваниями.
Подход к решению
Для решения этих проблем мы предлагаем трехступенчатый процесс дистилляции с использованием супервайзинга (SFT). Также мы выявили ограничение применения GRPO к латентному рассуждению: он в основном улучшает текстовое рассуждение, а не латентное. Чтобы это исправить, мы предлагаем метод VLPO (Оптимизация Политики визуально-латентного направления), который явно включает латентные встраивания в обновления градиента политики.
Заключение
Поддержка SFT и внедрение VLPO открывают новые возможности для более глубокого понимания визуального мышления и его интеграции в процесс обучения языковых моделей.