Введение
Долгосрочная роботизированная манипуляция продолжает оставаться сложной задачей для моделей Зрение-Язык-Действие (VLA), несмотря на недавние достижения в области нулевой генерализации и переноса из симуляции в реальный мир.
Проблемы текущих моделей VLA
Современные VLA модели страдают от так называемой галлюцинации этапов, когда агенты используют грубые оценочные сигналы для обхода многоступенчатых задач, сообщая о высоких результатах без их полного выполнения.
Представляем EvoVLA
Мы представляем EvoVLA — самообучающуюся VLA-рамку, которая решает эту проблему с помощью трех взаимодополняющих компонентов:
- Награда, согласованная с этапом (SAR): использует контрастное обучение с тройками и сложные негативные примеры, сгенерированные Gemini, чтобы предотвратить визуальные обходы.
- Исследование объектов на основе позы (POE): основывает любопытство на относительной позе объекта и захвата, а не на сырых пикселях.
- Долговременная память: использует селективное сохранение контекста и управляемое слияние для стабилизации внутреннего формирования во время длительных развертываний.
Результаты тестирования
Обширные оценки на Discoverse-L, бенчмарке для долгосрочной манипуляции с тремя многоступенчатыми задачами, показывают, что EvoVLA улучшает средний успех задач на 10,2 процентных пункта по сравнению с самым сильным базовым уровнем (OpenVLA-OFT), достигая 69,2 процента. EvoVLA также демонстрирует в полтора раза большую эффективность выборки и сокращает…
Модель EvoVLA действительно интересна своим подходом к саморазвивающемуся зрению и действиям. Упоминание о преодолении проблем долгосрочной манипуляции подчеркивает значимость этой технологии в реальных приложениях. Интересно, как именно планируется использовать эти идеи на практике, особенно в сложных сценариях, где требуется адаптивность и обучение в процессе выполнения задач.