Target-Bench: Модели мира и планирование без карт — Без рубрики

Введение

Совсем недавно модели мира начали генерировать очень реалистичные видео, однако их способность выполнять планирование маршрутов для роботов остается неясной и неоцененной.

Что такое Target-Bench?

Мы представляем Target-Bench — первый бенчмарк, специально разработанный для оценки моделей мира в задачах планирования маршрутов без карт к семантическим целям в реальных условиях.

Особенности Target-Bench

450 видео последовательностей, собранных роботами;
45 семантических категорий;
Данные с использованием SLAM для проверки траекторий.

Методы оценки

Наши методы оценки восстанавливают движение камеры из сгенерированных видео и измеряют эффективность планирования с помощью пяти дополнительных метрик, которые оценивают способность достижения цели, точность траектории и согласованность направления.

Оценка современных моделей

Мы провели оценку современных моделей, включая Sora 2, Veo 3.1 и серию Wan. Лучшая модель из доступных (Wan2.2-Flash) достигла всего 0.299 балла, что подчеркивает значительные ограничения текущих моделей мира для задач планирования робототехники.

Результаты и улучшения

Мы показываем, что тонкая настройка открытой модели с 5 миллиардами параметров на всего 325 сценариях из нашего набора данных достигает 0.345 балла — улучшение более чем на 400% по сравнению с базовой версией (0.066) и на 15% выше, чем у лучшей доступной модели.

Будущее и открытые исходные коды

Мы планируем сделать код доступным для открытого использования.

Один комментарий к “Target-Bench: Модели мира и планирование без карт”

Анна Ивановна:

21.01.2026 в 10:15

Интересно, что Target-Bench стал первым бенчмарком для оценки моделей мира. Особенно впечатляет подход к планированию маршрутов без карт, что открывает новые возможности для семантических целей. Будет ли в дальнейшем исследоваться использование этого бенчмарка в реальных приложениях?

Обсуждение закрыто.