OmniAlpha: Унифицированная модель для генерации RGBA-изображений

Введение

Генеративные модели достигли значительных успехов в синтезе RGB, но реальные приложения требуют манипуляции с RGBA. Это привело к фрагментации: специализированные модели для одной задачи обрабатывают альфа-канал, но не обладают универсальностью, в то время как унифицированные многофункциональные фреймворки ограничены только RGB.

Предложение OmniAlpha

Чтобы устранить этот критический разрыв, мы предлагаем OmniAlpha — первую унифицированную многофункциональную генеративную модель для последовательной генерации и редактирования RGBA-изображений.

Архитектура OmniAlpha

Архитектура включает MSRoPE-BiL, новую методику RoPE с двунаправленной осью слоя, которая используется в основе Diffusion Transformer (DiT). Это позволяет одновременно обрабатывать несколько входных и целевых RGBA-слоев.

Новый набор данных AlphaLayers

Для поддержки этой модели мы представляем AlphaLayers — новый набор данных из 1000 высококачественных многослойных триплетов, созданный с помощью новой автоматизированной синтетической и фильтрационной цепочки.

Эксперименты и результаты

Обучая OmniAlpha на этом наборе данных по широкому спектру из 21 задачи, обширные эксперименты показывают, что наш унифицированный подход последовательно превосходит сильные специализированные модели. В частности, OmniAlpha демонстрирует резкое снижение SAD на 84,8% для матирования без масок на AIM-500 и получает более 90% предпочтений среди людей.