Введение в агентов для работы с компьютером
Агенты для работы с компьютером (CUA) становятся все более способными самостоятельно управлять цифровыми средами через графические пользовательские интерфейсы (GUI). Однако большинство GUI по-прежнему разрабатываются в первую очередь для людей, акцентируя внимание на эстетике и удобстве использования. Это заставляет агентов принимать поведение, ориентированное на человека, что не всегда необходимо для эффективного выполнения задач.
Развитие языковых моделей для автоматического проектирования GUI
Скоростные достижения в области языковых моделей, ориентированных на код (Coder), изменили подход к автоматическому проектированию GUI. Это поднимает важный вопрос: могут ли CUA выступать в роли судей, чтобы помочь Coder в автоматическом проектировании GUI?
AUI-Gym: новый стандарт для автоматического проектирования GUI
Для изучения этого вопроса мы представляем AUI-Gym, стандарт для автоматической разработки GUI, охватывающий 52 приложения из различных областей. Используя языковые модели, мы синтезируем 1560 задач, которые моделируют реальные сценарии.
Проверка надежности задач
Чтобы обеспечить надежность задач, мы также разработали проверяющее средство, которое программно проверяет, может ли каждая задача быть выполнена в своей среде.
Система сотрудничества Coder и CUA
На основе этого мы предлагаем рамочную модель сотрудничества Coder-CUA: Coder выступает в роли дизайнера, генерируя и корректируя веб-сайты, в то время как CUA служит судьей, оценивая функциональность и уточняя дизайны. Успех измеряется не по визуальному представлению, а по решаемости задач и эффективности CUA.