Масштабирование агентного обучения с инструментами в VLMs

Введение

Современные модели взаимодействия изображения и языка (VLMs) демонстрируют хорошие результаты в понимании изображений, однако их способность «думать с помощью изображений», то есть рассуждать через многоступенчатые визуальные взаимодействия, остается ограниченной.

Что такое VISTA-Gym?

Мы представляем VISTA-Gym — масштабируемую тренировочную среду, предназначенную для стимулирования возможностей визуального рассуждения с использованием инструментов в VLMs. VISTA-Gym объединяет разнообразные задачи многомодального рассуждения из реального мира (7 задач из 13 наборов данных) с унифицированным интерфейсом для визуальных инструментов (например, привязка, разбор), исполняемыми циклами взаимодействия, проверяемыми сигналами обратной связи и эффективным логированием траекторий, что позволяет осуществлять агентное обучение с подкреплением в масштабах.

Проблемы существующих VLMs

Несмотря на то, что современные VLMs показывают хорошие результаты в текстовом рассуждении, как проприетарные, так и открытые модели все еще сталкиваются с проблемами выбора инструментов, их вызова и координации.

Обучение VISTA-R1

С помощью VISTA-Gym мы обучаем VISTA-R1, чтобы объединить использование инструментов с агентным рассуждением через многократное выбор траекторий и обучение с подкреплением от начала до конца. Обширные эксперименты на 11 публичных бенчмарках, требующих интенсивного рассуждения, показывают, что VISTA-R1-8B превосходит современные эталонные модели аналогичного размера на 9.51%-18.72%, демонстрируя таким образом эффективность VISTA-Gym как тренировочной площадки для раскрытия потенциала VLMs.