Введение
Генеративные модели достигли значительных успехов в синтезе RGB, но реальные приложения требуют манипуляции с RGBA. Это привело к фрагментации: специализированные модели для одной задачи обрабатывают альфа-канал, но не обладают универсальностью, в то время как унифицированные многофункциональные фреймворки ограничены только RGB.
Предложение OmniAlpha
Чтобы устранить этот критический разрыв, мы предлагаем OmniAlpha — первую унифицированную многофункциональную генеративную модель для последовательной генерации и редактирования RGBA-изображений.
Архитектура OmniAlpha
Архитектура включает MSRoPE-BiL, новую методику RoPE с двунаправленной осью слоя, которая используется в основе Diffusion Transformer (DiT). Это позволяет одновременно обрабатывать несколько входных и целевых RGBA-слоев.
Новый набор данных AlphaLayers
Для поддержки этой модели мы представляем AlphaLayers — новый набор данных из 1000 высококачественных многослойных триплетов, созданный с помощью новой автоматизированной синтетической и фильтрационной цепочки.
Эксперименты и результаты
Обучая OmniAlpha на этом наборе данных по широкому спектру из 21 задачи, обширные эксперименты показывают, что наш унифицированный подход последовательно превосходит сильные специализированные модели. В частности, OmniAlpha демонстрирует резкое снижение SAD на 84,8% для матирования без масок на AIM-500 и получает более 90% предпочтений среди людей.