Canvas-to-Image: Генерация изображений с мультимодальным контролем

Введение

Современные диффузионные модели отлично справляются с генерацией качественных и разнообразных изображений, однако им по-прежнему тяжело обеспечивать высокую точность композиции и мультимодального контроля. Это особенно актуально, когда пользователи одновременно задают текстовые подсказки, ссылки на объекты, пространственные расположения, ограничения по позам и аннотации компоновки.

Canvas-to-Image

Мы представляем Canvas-to-Image — единую платформу, которая объединяет эти разнородные элементы управления в одном интерфейсе. Это позволяет пользователям генерировать изображения, которые точно отражают их намерения.

Ключевая идея

Наша основная идея заключается в кодировании различных сигналов управления в одно составное изображение на холсте, которое модель может интерпретировать для интегрированного визуально-пространственного анализа.

Обучение модели

Мы разработали набор многозадачных данных и предложили стратегию Multi-Task Canvas Training, которая оптимизирует диффузионную модель для совместного понимания и интеграции разнородных элементов управления в генерацию изображений по текстовым запросам в рамках единой обучающей парадигмы. Это совместное обучение позволяет Canvas-to-Image рассматривать различные методы контроля, а не полагаться на специальные эвристики для каждой задачи, что обеспечивает хорошую генерализацию в многофункциональных сценариях во время вывода.

Эксперименты

Обширные эксперименты показывают, что Canvas-to-Image значительно улучшает качество генерации изображений, обеспечивая точное соответствие запросам пользователей.