DR Tulu: Обучение с подкреплением для глубоких исследований

Введение

Глубокие исследовательские модели выполняют многопроцессные исследования для создания длинных, хорошо атрибутированных ответов. Однако большинство открытых моделей глубоких исследований обучаются на коротких задачах вопрос-ответ с возможностью проверки, что не позволяет им эффективно справляться с задачами длинного формата.

Проблема и решение

Мы предлагаем метод Обучения с Подкреплением с Эволюционными Рубриками (RLER), который включает создание и поддержку рубрик, которые со временем развиваются вместе с моделью во время обучения. Это позволяет рубрикам адаптироваться к новой информации, исследованной моделью, и предоставлять дифференцированную обратную связь.

DR Tulu-8B

С использованием RLER мы разработали Deep Research Tulu (DR Tulu-8B) — первую открытую модель, специально обученную для открытых, долгих глубоких исследований. Эта модель значительно превосходит существующие открытые модели глубоких исследований по четырем бенчмаркам в областях науки, здравоохранения и других общих областях.

Преимущества

  • Сравнение с проприетарными системами глубоких исследований показывает, что DR Tulu достигает или превышает их результаты.
  • При этом модель значительно меньше и дешевле в использовании на запрос.

Будущее исследований

Для содействия будущим исследованиям мы публикуем все данные, модели и код, включая новую инфраструктуру агента на базе MCP для систем глубоких исследований.

Один комментарий к “DR Tulu: Обучение с подкреплением для глубоких исследований

  1. Интересно, что DR Tulu представлена как первая открытая модель для глубоких исследований. Учитывая, что она превосходит существующие системы, как именно это достигается на практике?

Обсуждение закрыто.