Введение в RLHF
Обучение с подкреплением на основе человеческой обратной связи (RLHF) активно используется для настройки больших языковых моделей. Однако практики сталкиваются с постоянной проблемой: улучшение безопасности часто снижает справедливость, масштабирование на разнообразные популяции становится вычислительно сложным, а создание устойчивых систем часто усиливает предвзятости большинства.
Трилемма выравнивания
Мы формализуем эту напряженность как Трилемму выравнивания: ни одна система RLHF не может одновременно достичь следующих целей:
- (i) эпсилон-представительность среди разнообразных человеческих ценностей,
- (ii) полиномиальная вычислительная сложность в отношении образцов и вычислений,
- (iii) дельта-устойчивость к противодействующим изменениям и смещению распределения.
Анализ сложности
С помощью анализа сложности, который объединяет теорию статистического обучения и устойчивую оптимизацию, мы доказываем, что для достижения как представительности (эпсилон <= 0.01), так и устойчивости (дельта <= 0.001) для популяций глобального масштаба требуется Omega(2^{d_context}) операций, что является суперполиномиальным в контексте размерности.
Современные реализации RLHF
Мы показываем, что текущие реализации RLHF решают эту трилемму, жертвуя представительностью: они собирают только 10^3–10^4 образцов из однородных групп аннотаторов, тогда как для истинного глобального представительства требуется 10^7–10^8 образцов. Наша структура…