Агентный обучающийся с мультимодальной семантической памятью

Введение

Современные модели машинного обучения (MLLMs) показывают хорошие результаты в решении изолированных задач, но работают они в изоляции. Каждую проблему они решают независимо, что часто приводит к повторению одних и тех же ошибок.

Проблемы существующих моделей

Существующие агенты с усиленной памятью в основном хранят прошлые траектории для повторного использования. Однако память, основанная на траекториях, страдает от недостатка данных, постепенно теряя важные знания о предметной области. Более того, даже в условиях мультимодального решения задач, такие модели записывают лишь однородные данные о прошлом поведении, что не позволяет сохранить, как визуальное внимание и логическое рассуждение совместно способствовали решению.

Недостатки традиционного подхода

Это противоречит человеческому мышлению: семантическая память является мультимодальной и интегрированной, сохраняя визуальные и абстрактные знания через согласованные, но различные представления.

Предложение нового подхода

В связи с этим мы представляем ViLoMem — двухпоточный механизм памяти, который создает компактную, основанную на схемах память. Он отдельно кодирует визуальные отвлекающие факторы и ошибки логического рассуждения, позволяя MLLMs учиться на успешных и неудачных опытах.

Принцип роста и уточнения

Следуя принципу «расти и уточнять», система постепенно накапливает и обновляет мультимодальные семантические знания, сохраняя стабильные, обобщаемые стратегии и избегая…