AutoEnv: Автоматизированные среды для обучения агентов

Обзор

Люди естественным образом адаптируются к различным условиям, обучаясь основным правилам в мирах с разной динамикой, наблюдениями и структурами вознаграждений. В отличие от этого, существующие агенты, как правило, демонстрируют улучшения, развиваясь внутри одной области, подразумевая фиксированное распределение среды.

Проблема кросс-средового обучения

Кросс-средовое обучение остается в значительной степени не измеренным: нет стандартного набора управляемых, гетерогенных сред, а также единого способа представления того, как агенты обучаются.

Решение: AutoEnv

Мы решаем эти проблемы в два этапа. Во-первых, мы предлагаем AutoEnv, автоматизированную платформу, которая рассматривает среды как факторизуемые распределения по переходам, наблюдениям и вознаграждениям. Это позволяет низкозатратную (в среднем 4.12 USD) генерацию гетерогенных миров.

Создание набора данных AutoEnv-36

С помощью AutoEnv мы создаем AutoEnv-36 — набор данных, который включает 36 сред с 358 проверенными уровнями. На этом наборе данных семь языковых моделей достигают 12-49% нормализованного вознаграждения, что подчеркивает сложность задачи в AutoEnv-36.

Формализация обучения агентов

Во-вторых, мы формализуем обучение агентов как процесс, ориентированный на компоненты, который проходит через три этапа: отбор, оптимизация и оценка, применяемые к улучшаемому компоненту агента. Используя эту формулировку, мы разрабатываем восемь методов обучения.