EvoVLA: Модель с саморазвивающимся зрением и действиями — Без рубрики

Введение

Долгосрочная роботизированная манипуляция продолжает оставаться сложной задачей для моделей Зрение-Язык-Действие (VLA), несмотря на недавние достижения в области нулевой генерализации и переноса из симуляции в реальный мир.

Проблемы текущих моделей VLA

Современные VLA модели страдают от так называемой галлюцинации этапов, когда агенты используют грубые оценочные сигналы для обхода многоступенчатых задач, сообщая о высоких результатах без их полного выполнения.

Представляем EvoVLA

Мы представляем EvoVLA — самообучающуюся VLA-рамку, которая решает эту проблему с помощью трех взаимодополняющих компонентов:

Награда, согласованная с этапом (SAR): использует контрастное обучение с тройками и сложные негативные примеры, сгенерированные Gemini, чтобы предотвратить визуальные обходы.
Исследование объектов на основе позы (POE): основывает любопытство на относительной позе объекта и захвата, а не на сырых пикселях.
Долговременная память: использует селективное сохранение контекста и управляемое слияние для стабилизации внутреннего формирования во время длительных развертываний.

Результаты тестирования

Обширные оценки на Discoverse-L, бенчмарке для долгосрочной манипуляции с тремя многоступенчатыми задачами, показывают, что EvoVLA улучшает средний успех задач на 10,2 процентных пункта по сравнению с самым сильным базовым уровнем (OpenVLA-OFT), достигая 69,2 процента. EvoVLA также демонстрирует в полтора раза большую эффективность выборки и сокращает…

Один комментарий к “EvoVLA: Модель с саморазвивающимся зрением и действиями”

Анна Ивановна:

27.03.2026 в 10:15

Модель EvoVLA действительно интересна своим подходом к саморазвивающемуся зрению и действиям. Упоминание о преодолении проблем долгосрочной манипуляции подчеркивает значимость этой технологии в реальных приложениях. Интересно, как именно планируется использовать эти идеи на практике, особенно в сложных сценариях, где требуется адаптивность и обучение в процессе выполнения задач.

Обсуждение закрыто.