Мягкая адаптивная оптимизация политики в обучении с подкреплением

Введение в обучение с подкреплением

Обучение с подкреплением (RL) становится все более важным для улучшения возможностей рассуждения больших языковых моделей (LLMs). Однако стабильная и эффективная оптимизация политики остается сложной задачей.

Проблемы с оптимизацией политики

Соотношения важности на уровне токенов часто демонстрируют высокую изменчивость, что усугубляется в моделях Mixture-of-Experts. Это приводит к нестабильным обновлениям. Существующие методы оптимизации политики, такие как GSPO и GRPO, решают эту проблему с помощью жесткого обрезания, что затрудняет поддержание как стабильности, так и эффективного обучения.

Предложение: Мягкая адаптивная оптимизация политики (SAPO)

Мы предлагаем Мягкую адаптивную оптимизацию политики (SAPO), которая заменяет жесткое обрезание на плавный, контролируемый температурой шлюз. Этот шлюз адаптивно ослабляет обновления вне политики, сохраняя при этом полезные сигналы обучения.

Преимущества SAPO

В отличие от GSPO и GRPO, SAPO обладает как последовательной согласованностью, так и адаптивностью на уровне токенов. Как и GSPO, SAPO поддерживает согласованность на уровне последовательности, но его мягкий шлюз формирует непрерывную область доверия, избегая хрупкой зоны жесткого обрезания, используемой в GSPO. Когда последовательность содержит несколько токенов, сильно отклоняющихся от политики, GSPO подавляет все градиенты для этой последовательности. В то время как SAPO избирательно уменьшает вес только проблемных токенов, сохраняя при этом сигнал обучения.

Один комментарий к “Мягкая адаптивная оптимизация политики в обучении с подкреплением

  1. Концепция мягкой адаптивной оптимизации политики (SAPO) действительно кажется многообещающей для повышения стабильности обучения с подкреплением. Особенно интересно, как SAPO может улучшить результаты больших языковых моделей, которые часто подвержены нестабильности. Как вы считаете, какие конкретные примеры применения SAPO уже существуют в практике?

Обсуждение закрыто.