Введение в RynnVLA-002
Мы представляем RynnVLA-002 — объединенную модель восприятия, языка и действий (VLA) и мировую модель. Эта модель использует информацию о действиях и визуальные данные для предсказания будущих состояний изображений, обучаясь основной физике окружающей среды для улучшения генерации действий.
Как работает RynnVLA-002
С другой стороны, модель VLA формирует последующие действия на основе визуальных наблюдений, что улучшает понимание визуальной информации и поддерживает генерацию изображений в мировой модели. Объединенная структура RynnVLA-002 позволяет совместное обучение динамики окружающей среды и планирования действий.
Результаты экспериментов
Наши эксперименты показывают, что RynnVLA-002 превосходит отдельные модели VLA и мировые модели, демонстрируя их взаимное улучшение. Мы провели оценку RynnVLA-002 как в симуляциях, так и в реальных задачах с роботами.
RynnVLA-002 достигает 97.4% успеха на симуляционном бенчмарке LIBERO без предварительного обучения. В реальных экспериментах с LeRobot интегрированная мировая модель увеличивает общий уровень успеха на 50%.





