Эффективное масштабирование агентов с учетом бюджета инструментов — Без рубрики

Масштабирование вычислений в тестовом времени

Масштабирование вычислений в тестовом времени улучшает производительность различных задач для больших языковых моделей (LLMs) и также применяется к агентам с использованием инструментов. Для этих агентов масштабирование включает не только «мышление» в токенах, но и «действие» через вызовы инструментов. Количество вызовов инструментов напрямую ограничивает взаимодействие агента с внешней средой.

Проблема отсутствия осознания бюджета

Однако мы обнаружили, что простое предоставление агентам большего бюджета на вызовы инструментов не повышает производительность, так как они не обладают «осознанием бюджета» и быстро достигают предела производительности.

Решение проблемы

Чтобы решить эту проблему, мы изучаем, как эффективно масштабировать таких агентов с явными бюджетами на вызовы инструментов, с акцентом на агентов для веб-поиска. Мы сначала представляем Budget Tracker — легкий плагин, который обеспечивает агента непрерывным осознанием бюджета, что позволяет осуществлять простое, но эффективное масштабирование.

Разработка BATS

Далее мы разрабатываем BATS (Budget Aware Test-time Scaling) — современную структуру, которая использует это осознание для динамической адаптации своей стратегии планирования и проверки. Она решает, стоит ли «углубляться» в перспективный путь или «переходить» к новым направлениям на основе оставшихся ресурсов.

Анализ масштабирования затрат и производительности

Для анализа масштабирования затрат и производительности в контролируемой манере мы формализуем единый метрик затрат, который…