Введение
Развитие агентов для работы с компьютером (CUA) ограничено отсутствием больших и качественных наборов данных, которые отражают, как люди взаимодействуют с компьютером. В то время как большие языковые модели (LLM) успешно работают с обилием текстовых данных, аналогичного корпуса для траекторий CUA не существует.
Представление FaraGen
Чтобы заполнить эти пробелы, мы представляем FaraGen — новую систему генерации синтетических данных для многошаговых веб-задач. FaraGen может предлагать разнообразные задачи с часто используемых веб-сайтов, генерировать несколько попыток решения и фильтровать успешные траектории с помощью множества проверяющих.
Преимущества FaraGen
- Высокая производительность и разнообразие для многошаговых веб-задач.
- Производство проверенных траекторий примерно за $1 каждая.
Обучение модели Fara-7B
Мы используем эти данные для обучения Fara-7B — нативной модели CUA, которая воспринимает компьютер, используя только скриншоты, выполняет действия по предсказанным координатам и достаточно компактна для работы на устройствах.
Результаты
Модель Fara-7B превосходит другие CUA модели сопоставимого размера по таким бенчмаркам, как WebVoyager, Online-Mind2Web и WebTailBench — наш новый бенчмарк, который лучше отражает недопредставленные веб-задачи в существующих тестах. Более того, Fara-7B конкурирует с гораздо более крупными передовыми моделями, демонстрируя ключевые преимущества масштабируемости.