Monet: Рекомендации по визуальному мышлению за пределами изображений

Введение

«Мыслить с помощью изображений» стало эффективной парадигмой для развития визуального мышления, выходя за рамки текстовых цепочек. Этот подход включает визуальные доказательства в промежуточные этапы рассуждения. Однако существующие методы не достигают уровня абстрактного визуального мышления, характерного для человека, так как их гибкость ограничена внешними инструментами.

Монет: Новая методология

В данной работе мы представляем Monet — тренировочную платформу, которая позволяет мультимодальным крупным языковым моделям (MLLM) мыслить прямо в латентном визуальном пространстве, создавая непрерывные встраивания, которые функционируют как промежуточные визуальные мысли.

Основные проблемы

Мы выделяем две ключевые проблемы при обучении MLLM для латентного визуального мышления:

  • высокая вычислительная стоимость выравнивания латентного зрения;
  • недостаточный контроль над латентными встраиваниями.

Подход к решению

Для решения этих проблем мы предлагаем трехступенчатый процесс дистилляции с использованием супервайзинга (SFT). Также мы выявили ограничение применения GRPO к латентному рассуждению: он в основном улучшает текстовое рассуждение, а не латентное. Чтобы это исправить, мы предлагаем метод VLPO (Оптимизация Политики визуально-латентного направления), который явно включает латентные встраивания в обновления градиента политики.

Заключение

Поддержка SFT и внедрение VLPO открывают новые возможности для более глубокого понимания визуального мышления и его интеграции в процесс обучения языковых моделей.