Введение
Недавние достижения в области моделей Визуального-Языкового-Действия (VLA) показывают, что визуальные сигналы могут эффективно дополнять разрозненные действия. Однако, если позволить VLA напрямую предсказывать высокоразмерные визуальные состояния, это может привести к распределению емкости модели и значительным затратам на обучение. Сжатие визуальных состояний в более компактные сигналы оценки неизбежно вызывает узкие места в информации.
Проблемы существующих методов
Существующие методы часто страдают от слабых возможностей понимания и рассуждения из-за игнорирования языкового надзора.
Представление Mantis
В данной статье представлен Mantis — новая платформа, использующая Разделённое Визуальное Предсказание (DVF) для решения указанных проблем. Конкретно, Mantis отделяет предсказание визуального foresight от основной структуры, сочетая мета-запросы с диффузионной моделью Transformer (DiT).
Как работает Mantis
Текущая визуальная информация передаётся в DiT через остаточное соединение. Простая задача предсказания следующего состояния позволяет мета-запросам автоматически захватывать скрытые действия, которые определяют визуальную траекторию, что, в свою очередь, улучшает обучение явных действий. Это разделение снижает нагрузку на основную модель VLA, позволяя ей сохранять способности понимания и рассуждения.

Комментарии
2 комментария на ««Mantis: Модель для визуального предсказания и действия»»
Интересно, как Mantis использует разделённый визуальный foresight для улучшения предсказаний. Как это влияет на точность действий модели?
Интересно, как Mantis использует разделённый визуальный foresight для предсказаний. Это открывает новые возможности в области визуального восприятия и принятия решений. Как именно этот подход влияет на эффективность действий модели?