Укрепление действий с помощью предсказаний

Политики действия в Vision-Language-Action

Политики Vision-Language-Action (VLA) хорошо согласуют язык, восприятие и управление роботами. Однако большинство VLA обучаются исключительно методом имитации, что приводит к переобучению на демонстрациях и нестабильности при изменении условий.

Роль обучения с подкреплением

Обучение с подкреплением (RL) непосредственно оптимизирует вознаграждение за задание и, таким образом, устраняет это несоответствие. Однако взаимодействие с реальными роботами дорогостоящее, а традиционные симуляторы сложно проектировать и переносить.

Наше решение

Мы решаем проблемы эффективности данных и стабильности оптимизации в VLA после обучения с помощью изученной модели мира и процедуры RL, адаптированной для потоковых действий. В частности, мы представляем Prophet — унифицированную активацию робота на основе действий к видео, предварительно обученную на обширных и разнородных данных о роботах для изучения повторно используемой динамики действия-результата.

Адаптация к новым условиям

Prophet способен адаптироваться к новым роботам, объектам и окружениям с минимальным количеством примеров, что обеспечивает готовый к использованию симулятор.

Укрепление политик действий

На основе Prophet мы усиливаем политики действий с помощью Flow-action-GRPO (FA-GRPO), который адаптирует Flow-GRPO для работы с VLA действиями, и FlowScale, методики поэтапного пересчета, которая пересчитывает градиенты на каждом шаге в потоке. Вместе Prophet, FA-GRPO и FlowScale составляют ProphRL — практичный и эффективный по данным и вычислениям путь.