ENACT: Оценка воплощённого познания через моделирование мира

Введение в воплощённое познание

Воплощённое познание утверждает, что интеллект формируется через сенсомоторное взаимодействие, а не через пассивное наблюдение. Это поднимает интересный вопрос: демонстрируют ли современные модели языка и зрения (VLM), обученные в основном без физического взаимодействия, признаки воплощённого познания?

Что такое ENACT?

Мы представляем ENACT, стандарт для оценки воплощённого познания, который рассматривает оценку как моделирование мира через эгоцентрическое взаимодействие в формате визуального вопросительного ответа (VQA).

Структура ENACT

Фреймирование ENACT как частично наблюдаемого марковского процесса принятия решений (POMDP), где действия представляют собой изменения в графе сцены, включает в себя две взаимодополняющие задачи по перестановке последовательностей:

  • Моделирование мира вперед: перестановка перемешанных наблюдений с учётом действий.
  • Обратное моделирование мира: перестановка перемешанных действий с учётом наблюдений.

Значение задач

Хотя концептуально эти задачи просты, их решение требует наличия способностей, характерных для воплощённого познания, таких как:

  • Распознавание возможностей.
  • Логика действия и его последствий.
  • Телесное осознание.
  • Интерактивная, долгосрочная память, основанная на частично наблюдаемом эгоцентрическом входе.

При этом необходимо избегать низкоуровневой синтезы изображений, которая могла бы исказить оценку.

Поток работы ENACT

Мы предоставляем масштабируемый поток работы, который синтезирует пары вопросов и ответов из симуляции робототехники (BEHAVIOR) и оценивает модели на…