Введение
Квадратичная сложность полного внимания ограничивает эффективную обработку длинных контекстов в больших языковых моделях (LLM). Спарсное внимание помогает уменьшить эти затраты, позволяя каждому запросу обращать внимание лишь на подмножество предыдущих токенов. Однако подходы без обучения часто приводят к значительному ухудшению производительности.
Проблемы текущих методов
Методы спарсного внимания (например, NSA, MoBA) частично решают эту проблему, но сталкиваются с критическим парадоксом: они обеспечивают меньшую разреженность внимания, чем модели с полным вниманием, несмотря на цель аппроксимировать полное внимание. Это может ограничивать их эффективность.
Причина парадокса
Мы связываем этот парадокс с недостатком градиентного обновления: ключевые пары с низким рангом, исключенные во время спарсного обучения, не получают ни прямого вклада, ни градиентов для обратного распространения, и, следовательно, никогда не учатся правильно подавлять.
Предложение SSA
Чтобы преодолеть это ограничение, мы предлагаем SSA (Sparse Sparse Attention) — единую обучающую платформу, которая учитывает как спарсное, так и полное внимание и обеспечивает двустороннее выравнивание на каждом уровне. Этот подход сохраняет поток градиентов ко всем токенам, одновременно явно побуждая выходы спарсного внимания соответствовать их аналогам с полным вниманием, что способствует более высокой разреженности.
Результаты
В результате SSA достигает…