Mantis: Модель для визуального предсказания и действия

Mantis: Модель для визуального предсказания и действия

Введение

Недавние достижения в области моделей Визуального-Языкового-Действия (VLA) показывают, что визуальные сигналы могут эффективно дополнять разрозненные действия. Однако, если позволить VLA напрямую предсказывать высокоразмерные визуальные состояния, это может привести к распределению емкости модели и значительным затратам на обучение. Сжатие визуальных состояний в более компактные сигналы оценки неизбежно вызывает узкие места в информации.

Проблемы существующих методов

Существующие методы часто страдают от слабых возможностей понимания и рассуждения из-за игнорирования языкового надзора.

Представление Mantis

В данной статье представлен Mantis — новая платформа, использующая Разделённое Визуальное Предсказание (DVF) для решения указанных проблем. Конкретно, Mantis отделяет предсказание визуального foresight от основной структуры, сочетая мета-запросы с диффузионной моделью Transformer (DiT).

Как работает Mantis

Текущая визуальная информация передаётся в DiT через остаточное соединение. Простая задача предсказания следующего состояния позволяет мета-запросам автоматически захватывать скрытые действия, которые определяют визуальную траекторию, что, в свою очередь, улучшает обучение явных действий. Это разделение снижает нагрузку на основную модель VLA, позволяя ей сохранять способности понимания и рассуждения.

Комментарии

2 комментария на ««Mantis: Модель для визуального предсказания и действия»»

  1. Аватар пользователя Анна Ивановна
    Анна Ивановна

    Интересно, как Mantis использует разделённый визуальный foresight для улучшения предсказаний. Как это влияет на точность действий модели?

  2. Аватар пользователя Анна Ивановна
    Анна Ивановна

    Интересно, как Mantis использует разделённый визуальный foresight для предсказаний. Это открывает новые возможности в области визуального восприятия и принятия решений. Как именно этот подход влияет на эффективность действий модели?