Введение
Мы рассматриваем задачу редактирования изображений с разных ракурсов, используя ограниченное количество входных видов. Эти виды можно воспринимать как сочетание изображений, запечатлевающих сцену с различных точек зрения.
Цель и задачи
Цель заключается в том, чтобы изменить сцену в соответствии с текстовой инструкцией, сохраняя при этом согласованность во всех видах. Существующие методы, основанные на нейронных полях для каждой сцены или механизмах временного внимания, сталкиваются с трудностями в этой области, часто создавая артефакты и несогласованные изменения.
Предложение I-Mix2Mix
Мы предлагаем InstructMix2Mix (I-Mix2Mix) — фреймворк, который извлекает возможности редактирования из 2D диффузионной модели и применяет их к предобученной многовидовой диффузионной модели, используя ее основанные на данных 3D-принципы для обеспечения согласованности между видами.
Ключевые особенности
- Замена традиционного нейронного консолидатора поля в методе Score Distillation Sampling (SDS) на многовидового диффузионного студента.
- Постепенные обновления студента на разных временных этапах.
- Специальный планировщик шума учителя для предотвращения ухудшения результатов.
- Модификация внимания, которая улучшает согласованность между видами без дополнительных затрат.
Результаты экспериментов
Эксперименты показывают, что I-Mix2Mix значительно улучшает согласованность между видами, сохраняя при этом высокое качество редактирования для каждого кадра.