Введение
Мы представляем первое крупномасштабное исследование предварительного обучения моделей смешанных экспертов (MoE) на чистом оборудовании AMD, используя графические процессоры MI300X с межсоединением Pollara. Мы предлагаем практические рекомендации как для системного, так и для модельного дизайна.
Характеристика систем
С точки зрения систем, мы предоставляем всестороннюю характеристику кластера и сетевого взаимодействия:
- Микробенчмарки для всех основных коллективов (all-reduce, reduce-scatter, all-gather, broadcast)
- Измерения для различных размеров сообщений и количества GPU на Pollara
Насколько нам известно, это первое исследование такого масштаба. Мы также предоставляем микробенчмарки MI300X по размеру ядра и пропускной способности памяти для информирования о дизайне моделей.
Дизайн моделей
Что касается моделирования, мы вводим и применяем правила масштабирования трансформеров для блоков внимания и MLP, а также обосновываем ширину MoE, которая совместно оптимизирует пропускную способность обучения и задержку вывода.
Обучающий стек
Мы подробно описываем наш обучающий стек, включая часто игнорируемые утилиты, такие как отказоустойчивость и переработка контрольных точек, а также предоставляем детальную информацию о нашем рецепте обучения.
Архитектура модели
Мы также представляем предварительный обзор нашей архитектуры модели и базовой модели — ZAYA1 (760M активных, 8.3B всего параметров MoE), которая будет дополнительно улучшена в будущих публикациях. Базовая модель ZAYA1 демонстрирует высокую производительность…