Введение
Совсем недавно модели мира начали генерировать очень реалистичные видео, однако их способность выполнять планирование маршрутов для роботов остается неясной и неоцененной.
Что такое Target-Bench?
Мы представляем Target-Bench — первый бенчмарк, специально разработанный для оценки моделей мира в задачах планирования маршрутов без карт к семантическим целям в реальных условиях.
Особенности Target-Bench
- 450 видео последовательностей, собранных роботами;
- 45 семантических категорий;
- Данные с использованием SLAM для проверки траекторий.
Методы оценки
Наши методы оценки восстанавливают движение камеры из сгенерированных видео и измеряют эффективность планирования с помощью пяти дополнительных метрик, которые оценивают способность достижения цели, точность траектории и согласованность направления.
Оценка современных моделей
Мы провели оценку современных моделей, включая Sora 2, Veo 3.1 и серию Wan. Лучшая модель из доступных (Wan2.2-Flash) достигла всего 0.299 балла, что подчеркивает значительные ограничения текущих моделей мира для задач планирования робототехники.
Результаты и улучшения
Мы показываем, что тонкая настройка открытой модели с 5 миллиардами параметров на всего 325 сценариях из нашего набора данных достигает 0.345 балла — улучшение более чем на 400% по сравнению с базовой версией (0.066) и на 15% выше, чем у лучшей доступной модели.
Будущее и открытые исходные коды
Мы планируем сделать код доступным для открытого использования.
Интересно, что Target-Bench стал первым бенчмарком для оценки моделей мира. Особенно впечатляет подход к планированию маршрутов без карт, что открывает новые возможности для семантических целей. Будет ли в дальнейшем исследоваться использование этого бенчмарка в реальных приложениях?