Введение
Планирование задач является критически важным для встроенного ИИ, позволяя агентам следовать инструкциям на естественном языке и эффективно выполнять действия в трехмерных физических мирах. Однако существующие наборы данных часто упрощают планирование задач, игнорируя знания из области операционного исследования (ОР) и трехмерного пространственного контекста.
ORS3D: Новая задача планирования
В данной работе мы предлагаем задачу, основанную на знаниях операционного исследования и трехмерном контексте — ORS3D. Эта задача требует синергии понимания языка, трехмерного контекста и оптимизации эффективности. В отличие от предыдущих подходов, ORS3D требует от агентов минимизировать общее время выполнения, используя параллельные подзадачи, например, уборку раковины во время работы микроволновой печи.
Набор данных ORS3D-60K
Для содействия исследованиям в области ORS3D мы создали ORS3D-60K, крупномасштабный набор данных, состоящий из 60 000 составных задач в 4000 реальных сценах.
GRANT: Модель для выполнения задач
Кроме того, мы предлагаем GRANT, многомодальную большую языковую модель, оснащенную простым, но эффективным механизмом токенов для планирования, который позволяет генерировать эффективные расписания задач и обоснованные действия. Обширные эксперименты на ORS3D-60K подтверждают эффективность GRANT в области понимания языка, трехмерного контекста и эффективности планирования.