Обучение моделей на платформе AMD: вычисления и системный дизайн — Без рубрики

Введение

Мы представляем первое крупномасштабное исследование предварительного обучения моделей смешанных экспертов (MoE) на чистом оборудовании AMD, используя графические процессоры MI300X с межсоединением Pollara. Мы предлагаем практические рекомендации как для системного, так и для модельного дизайна.

Характеристика систем

С точки зрения систем, мы предоставляем всестороннюю характеристику кластера и сетевого взаимодействия:

Микробенчмарки для всех основных коллективов (all-reduce, reduce-scatter, all-gather, broadcast)
Измерения для различных размеров сообщений и количества GPU на Pollara

Насколько нам известно, это первое исследование такого масштаба. Мы также предоставляем микробенчмарки MI300X по размеру ядра и пропускной способности памяти для информирования о дизайне моделей.

Дизайн моделей

Что касается моделирования, мы вводим и применяем правила масштабирования трансформеров для блоков внимания и MLP, а также обосновываем ширину MoE, которая совместно оптимизирует пропускную способность обучения и задержку вывода.

Обучающий стек

Мы подробно описываем наш обучающий стек, включая часто игнорируемые утилиты, такие как отказоустойчивость и переработка контрольных точек, а также предоставляем детальную информацию о нашем рецепте обучения.

Архитектура модели

Мы также представляем предварительный обзор нашей архитектуры модели и базовой модели — ZAYA1 (760M активных, 8.3B всего параметров MoE), которая будет дополнительно улучшена в будущих публикациях. Базовая модель ZAYA1 демонстрирует высокую производительность…