Введение
Современные диффузионные модели отлично справляются с генерацией качественных и разнообразных изображений, однако им по-прежнему тяжело обеспечивать высокую точность композиции и мультимодального контроля. Это особенно актуально, когда пользователи одновременно задают текстовые подсказки, ссылки на объекты, пространственные расположения, ограничения по позам и аннотации компоновки.
Canvas-to-Image
Мы представляем Canvas-to-Image — единую платформу, которая объединяет эти разнородные элементы управления в одном интерфейсе. Это позволяет пользователям генерировать изображения, которые точно отражают их намерения.
Ключевая идея
Наша основная идея заключается в кодировании различных сигналов управления в одно составное изображение на холсте, которое модель может интерпретировать для интегрированного визуально-пространственного анализа.
Обучение модели
Мы разработали набор многозадачных данных и предложили стратегию Multi-Task Canvas Training, которая оптимизирует диффузионную модель для совместного понимания и интеграции разнородных элементов управления в генерацию изображений по текстовым запросам в рамках единой обучающей парадигмы. Это совместное обучение позволяет Canvas-to-Image рассматривать различные методы контроля, а не полагаться на специальные эвристики для каждой задачи, что обеспечивает хорошую генерализацию в многофункциональных сценариях во время вывода.
Эксперименты
Обширные эксперименты показывают, что Canvas-to-Image значительно улучшает качество генерации изображений, обеспечивая точное соответствие запросам пользователей.