VisPlay: Саморазвивающиеся модели визуального языка

Введение

Обучение с подкреплением (RL) предоставляет обоснованную основу для улучшения моделей визуального языка (VLM) при решении сложных задач рассуждения. Однако существующие методы RL часто зависят от меток, аннотированных человеком, или специфических эвристик для задач, что затрудняет определение проверяемых вознаграждений и делает этот процесс дорогим и трудоемким.

Что такое VisPlay?

Мы представляем VisPlay — саморазвивающуюся RL-структуру, которая позволяет VLM самостоятельно улучшать свои способности к рассуждению, используя большие объемы неразмеченных изображений. Начав с одной базовой VLM, VisPlay назначает модели две взаимодействующие роли:

  • Визуальный вопросник: формулирует сложные, но разрешимые визуальные вопросы.
  • Мультимодальный рассуждатель: генерирует промежуточные ответы.

Обучение и оптимизация

Эти роли обучаются совместно с использованием оптимизации политик Group Relative Policy Optimization (GRPO), которая включает вознаграждения за разнообразие и сложность. Это помогает сбалансировать сложность генерируемых вопросов и качество промежуточных ответов.

Эффективность VisPlay

VisPlay эффективно масштабируется на двух семьях моделей. При обучении на Qwen2.5-VL и MiMo-VL VisPlay показывает последовательные улучшения в визуальном рассуждении, композиционной генерализации и снижении галлюцинаций на восьми бенчмарках, включая MM-Vet и MMMU.

Один комментарий к “VisPlay: Саморазвивающиеся модели визуального языка

  1. Статья поднимает важные аспекты использования неразмеченных данных в модели VisPlay. Упомянутая саморазвивающаяся структура может значительно повысить эффективность визуального языка, что особенно актуально в условиях постоянного роста объема информации. Интересно, как именно будет происходить интеграция новых данных и какие метрики будут использоваться для оценки улучшений. Будет ли продолжение исследования в этой области?

Обсуждение закрыто.