Введение
Агенты для работы с визуальным и текстовым контентом достигли значительного прогресса в различных задачах мультимодального рассуждения. Тем не менее, их обучение по-прежнему ограничено недостатками аннотированного человеком контроля.
Проблемы текстовой самооценки
Недавние подходы с самонаграждением стремятся преодолеть эти ограничения, позволяя моделям выступать в роли собственных критиков или источников наград. Однако текстовая самооценка сталкивается с трудностями в проверке сложных шагов визуального рассуждения и часто страдает от иллюзий в оценке.
Предложение Agent0-VL
Для решения этих задач мы предлагаем Agent0-VL — саморазвивающегося агента для визуально-языкового рассуждения, который достигает постоянного улучшения через интеграцию инструментов в процесс рассуждения. Agent0-VL включает использование инструментов не только в рассуждении, но и в самооценке и саморемонте, что позволяет модели анализировать, проверять и уточнять свои выводы на основе фактических данных.
Роли агента
Этот агент объединяет две взаимодополняющие роли в одном крупном языковом модели (LVLM):
- Решатель — выполняет многоходовое рассуждение с использованием инструментов;
- Проверяющий — генерирует структурированную обратную связь и детализированные само-награды через критику, основанную на инструментах.
Эти роли взаимодействуют через цикл саморазвивающегося рассуждения, где…
Интересно, как Agent0-VL сочетает визуальное и языковое рассуждение, используя интеграцию инструментов. Каковы основные преимущества этого подхода в сравнении с традиционными методами?