ROOT: Надежный ортогонализированный оптимизатор для НС

Введение

Оптимизация больших языковых моделей (LLMs) остается важной задачей, особенно из-за того, что увеличение размера моделей усугубляет чувствительность к алгоритмическим неточностям и нестабильности обучения.

Проблемы существующих оптимизаторов

Недавние достижения в области оптимизаторов улучшили эффективность сходимости за счет ортогонализации момента, но у них есть два основных недостатка в плане надежности:

  • Дименсиональная хрупкость в точности ортогонализации.
  • Уязвимость к шуму, вызванному выбросами.

РАЗРАБОТКА ROOT

Чтобы решить эти проблемы, мы представляем ROOT — надежный ортогонализированный оптимизатор, который улучшает стабильность обучения с помощью двух механизмов надежности.

1. Дименсионально-устойчивая ортогонализация

Мы разработали схему ортогонализации, устойчивую к размерности, используя адаптивные итерации Ньютона с тонкими коэффициентами, адаптированными под конкретные размеры матриц. Это обеспечивает постоянную точность для различных архитектур.

2. Оптимизация с учетом надежности

Мы внедрили оптимизационно-устойчивую структуру с помощью проксимальной оптимизации, которая подавляет шум выбросов, сохраняя при этом значимые направления градиента.

Результаты экспериментов

Обширные эксперименты показывают, что ROOT обеспечивает значительно улучшенную надежность, более быструю сходимость и лучшее финальное качество по сравнению с оптимизаторами на основе Muon и Adam, особенно в сложных условиях.