Масштабирование вычислений в тестовом времени
Масштабирование вычислений в тестовом времени улучшает производительность различных задач для больших языковых моделей (LLMs) и также применяется к агентам с использованием инструментов. Для этих агентов масштабирование включает не только «мышление» в токенах, но и «действие» через вызовы инструментов. Количество вызовов инструментов напрямую ограничивает взаимодействие агента с внешней средой.
Проблема отсутствия осознания бюджета
Однако мы обнаружили, что простое предоставление агентам большего бюджета на вызовы инструментов не повышает производительность, так как они не обладают «осознанием бюджета» и быстро достигают предела производительности.
Решение проблемы
Чтобы решить эту проблему, мы изучаем, как эффективно масштабировать таких агентов с явными бюджетами на вызовы инструментов, с акцентом на агентов для веб-поиска. Мы сначала представляем Budget Tracker — легкий плагин, который обеспечивает агента непрерывным осознанием бюджета, что позволяет осуществлять простое, но эффективное масштабирование.
Разработка BATS
Далее мы разрабатываем BATS (Budget Aware Test-time Scaling) — современную структуру, которая использует это осознание для динамической адаптации своей стратегии планирования и проверки. Она решает, стоит ли «углубляться» в перспективный путь или «переходить» к новым направлениям на основе оставшихся ресурсов.
Анализ масштабирования затрат и производительности
Для анализа масштабирования затрат и производительности в контролируемой манере мы формализуем единый метрик затрат, который…