Введение в MoS (Mixture of States)
Мы представляем MoS (Mixture of States) — новую парадигму для многомодальных диффузионных моделей, которая объединяет различные модальности с помощью гибких взаимодействий на основе состояний. Основой MoS является обучаемый маршрутизатор на уровне токенов, который создает взаимодействия между скрытыми состояниями модальностей, зависящие от времени денойзинга и входных данных. Это позволяет точно согласовывать токеновые характеристики с траекторией диффузии.
Функции маршрутизатора
Маршрутизатор выбирает наиболее значимые скрытые состояния (top-k) и обучается с использованием стратегии ε-жадности. Это позволяет эффективно отбирать контекстные характеристики с минимальным количеством обучаемых параметров и незначительными вычислительными затратами.
Проверка концепции
Мы проверили нашу разработку на задачах генерации изображений из текста (MoS-Image) и редактирования (MoS-Editing), которые показывают выдающиеся результаты. Наши модели с числом параметров от 3 до 5 миллиардов достигают или превышают результаты аналогичных моделей, которые в 4 раза больше по размеру.
Заключение
Эти результаты устанавливают MoS как гибкую и вычислительно эффективную парадигму для масштабирования многомодальных диффузионных моделей.