Nemotron Elastic: Эффективные Модели Для Различных Задач

Введение

Обучение семейства больших языковых моделей, нацеленных на разные масштабы и цели развертывания, является дорогостоящим процессом. Для каждой модели требуется отдельный цикл обучения, что увеличивает затраты.

Проблема

Недавние исследования по сжатию моделей, включая обрезку и дистилляцию знаний, помогли снизить стоимость обучения. Однако даже с этими методами затраты все еще составляют сотни миллиардов токенов для каждого сжатого экземпляра модели.

Nemotron Elastic

В данной статье мы представляем Nemotron Elastic — фреймворк для создания LLM, ориентированных на рассуждения. Он включает гибридные архитектуры Mamba-Attention, которые встраивают несколько вложенных подсистем в одну родительскую модель. Каждая из этих подсистем оптимизирована для различных конфигураций развертывания и бюджетов.

Функциональность

Каждая подсистема делит веса с родительской моделью и может быть извлечена без дополнительного обучения или дообучения. Эта функциональность обеспечивается маршрутизатором, обученным от начала до конца, который тесно связан с двухступенчатой программой обучения, разработанной специально для моделей рассуждений.

Дополнительные особенности

Кроме того, мы представляем групповые SSM эластикации, которые сохраняют структурные ограничения Mamba, гетерогенную эластикацию MLP, нормализованный MSE для улучшенного выбора глубины и другие инновации.

Один комментарий к “Nemotron Elastic: Эффективные Модели Для Различных Задач

  1. Фреймворк Nemotron Elastic действительно впечатляет своей гибкостью в создании языковых моделей. Особенно интересно, как он подходит для различных задач и конфигураций развертывания. Есть ли планы на дальнейшее исследование его возможностей?

Обсуждение закрыто.