PRInTS: Моделирование вознаграждений для поиска информации

Введение

Поиск информации является ключевой способностью для ИИ-агентов, позволяя им собирать и обрабатывать информацию, сгенерированную инструментами, в ходе длительных процессов. Тем не менее, такие многоступенчатые задачи поиска информации остаются сложными для агентов, основанных на языковых моделях.

Проблемы существующих моделей

Хотя модели вознаграждений процесса (PRMs) могут направлять агентов, ранжируя возможные шаги во время тестирования, существующие PRMs, предназначенные для кратковременного рассуждения с бинарным суждением, не могут охватить более сложные аспекты шагов поиска информации, такие как взаимодействие с инструментами и рассуждение о результатах работы инструментов. Они также не справляются с быстро растущим контекстом в задачах долгосрочного поиска.

Введение PRInTS

Для решения этих ограничений мы представляем PRInTS — генеративную модель PRM, обученную с двумя основными возможностями:

  • Плотная оценка: основана на рассуждениях PRM по нескольким качественным параметрам шагов (например, интерпретация результатов инструментов, информативность вызова инструмента).
  • Сжатие траектории: сокращает растущий контекст, сохраняя при этом важную информацию для оценки шагов.

Результаты

Обширные оценки на бенчмарках FRAMES, GAIA (уровни 1-3) и WebWalkerQA (легкий и сложный) на нескольких моделях, а также абляции показывают, что выбор наилучших вариантов с PRInTS улучшает процесс поиска информации.