Введение
Генерация с использованием извлечения информации (RAG) улучшает большие языковые модели (LLMs) за счет использования внешних знаний, однако все еще сталкивается с проблемами при работе с длинными контекстами и несовершенной оптимизацией извлечения и генерации.
Предложение CLaRa
В данной работе мы представляем CLaRa (Continuous Latent Reasoning) — единый фреймворк, который выполняет сжатие на основе эмбеддингов и совместную оптимизацию в общем непрерывном пространстве.
Ключевые особенности CLaRa
- SCP: Мы вводим SCP, фреймворк синтеза данных с сохранением ключей, который использует QA и парафразирование для обучения.
- Обучение: CLaRa обучает перестановщик и генератор в конце цепочки с использованием единой функции потерь языкового моделирования.
- Градиенты: Градиенты проходят через оба модуля с использованием дифференцируемого топ-k оценивателя.
Теоретические преимущества
Единая оптимизация CLaRa позволяет согласовать релевантность извлечения и качество ответов.
Результаты экспериментов
Эксперименты на различных бенчмарках QA показывают, что CLaRa достигает передовых показателей сжатия и переупорядочивания, часто превосходя текстовые дообученные базовые модели.