Введение
Оптимизация больших языковых моделей (LLMs) остается важной задачей, особенно из-за того, что увеличение размера моделей усугубляет чувствительность к алгоритмическим неточностям и нестабильности обучения.
Проблемы существующих оптимизаторов
Недавние достижения в области оптимизаторов улучшили эффективность сходимости за счет ортогонализации момента, но у них есть два основных недостатка в плане надежности:
- Дименсиональная хрупкость в точности ортогонализации.
- Уязвимость к шуму, вызванному выбросами.
РАЗРАБОТКА ROOT
Чтобы решить эти проблемы, мы представляем ROOT — надежный ортогонализированный оптимизатор, который улучшает стабильность обучения с помощью двух механизмов надежности.
1. Дименсионально-устойчивая ортогонализация
Мы разработали схему ортогонализации, устойчивую к размерности, используя адаптивные итерации Ньютона с тонкими коэффициентами, адаптированными под конкретные размеры матриц. Это обеспечивает постоянную точность для различных архитектур.
2. Оптимизация с учетом надежности
Мы внедрили оптимизационно-устойчивую структуру с помощью проксимальной оптимизации, которая подавляет шум выбросов, сохраняя при этом значимые направления градиента.
Результаты экспериментов
Обширные эксперименты показывают, что ROOT обеспечивает значительно улучшенную надежность, более быструю сходимость и лучшее финальное качество по сравнению с оптимизаторами на основе Muon и Adam, особенно в сложных условиях.