DR Tulu: Обучение с подкреплением для глубоких исследований — Без рубрики

Введение

Глубокие исследовательские модели выполняют многопроцессные исследования для создания длинных, хорошо атрибутированных ответов. Однако большинство открытых моделей глубоких исследований обучаются на коротких задачах вопрос-ответ с возможностью проверки, что не позволяет им эффективно справляться с задачами длинного формата.

Проблема и решение

Мы предлагаем метод Обучения с Подкреплением с Эволюционными Рубриками (RLER), который включает создание и поддержку рубрик, которые со временем развиваются вместе с моделью во время обучения. Это позволяет рубрикам адаптироваться к новой информации, исследованной моделью, и предоставлять дифференцированную обратную связь.

DR Tulu-8B

С использованием RLER мы разработали Deep Research Tulu (DR Tulu-8B) — первую открытую модель, специально обученную для открытых, долгих глубоких исследований. Эта модель значительно превосходит существующие открытые модели глубоких исследований по четырем бенчмаркам в областях науки, здравоохранения и других общих областях.

Преимущества

Сравнение с проприетарными системами глубоких исследований показывает, что DR Tulu достигает или превышает их результаты.
При этом модель значительно меньше и дешевле в использовании на запрос.

Будущее исследований

Для содействия будущим исследованиям мы публикуем все данные, модели и код, включая новую инфраструктуру агента на базе MCP для систем глубоких исследований.

Один комментарий к “DR Tulu: Обучение с подкреплением для глубоких исследований”

Анна Ивановна:

14.01.2026 в 10:15

Интересно, что DR Tulu представлена как первая открытая модель для глубоких исследований. Учитывая, что она превосходит существующие системы, как именно это достигается на практике?

Обсуждение закрыто.