Сложность идеального выравнивания ИИ: формализация трилеммы RLHF

Введение в RLHF

Обучение с подкреплением на основе человеческой обратной связи (RLHF) активно используется для настройки больших языковых моделей. Однако практики сталкиваются с постоянной проблемой: улучшение безопасности часто снижает справедливость, масштабирование на разнообразные популяции становится вычислительно сложным, а создание устойчивых систем часто усиливает предвзятости большинства.

Трилемма выравнивания

Мы формализуем эту напряженность как Трилемму выравнивания: ни одна система RLHF не может одновременно достичь следующих целей:

  • (i) эпсилон-представительность среди разнообразных человеческих ценностей,
  • (ii) полиномиальная вычислительная сложность в отношении образцов и вычислений,
  • (iii) дельта-устойчивость к противодействующим изменениям и смещению распределения.

Анализ сложности

С помощью анализа сложности, который объединяет теорию статистического обучения и устойчивую оптимизацию, мы доказываем, что для достижения как представительности (эпсилон <= 0.01), так и устойчивости (дельта <= 0.001) для популяций глобального масштаба требуется Omega(2^{d_context}) операций, что является суперполиномиальным в контексте размерности.

Современные реализации RLHF

Мы показываем, что текущие реализации RLHF решают эту трилемму, жертвуя представительностью: они собирают только 10^3–10^4 образцов из однородных групп аннотаторов, тогда как для истинного глобального представительства требуется 10^7–10^8 образцов. Наша структура…