InstructMix2Mix: Редактирование изображений с разных ракурсов

Введение

Мы рассматриваем задачу редактирования изображений с разных ракурсов, используя ограниченное количество входных видов. Эти виды можно воспринимать как сочетание изображений, запечатлевающих сцену с различных точек зрения.

Цель и задачи

Цель заключается в том, чтобы изменить сцену в соответствии с текстовой инструкцией, сохраняя при этом согласованность во всех видах. Существующие методы, основанные на нейронных полях для каждой сцены или механизмах временного внимания, сталкиваются с трудностями в этой области, часто создавая артефакты и несогласованные изменения.

Предложение I-Mix2Mix

Мы предлагаем InstructMix2Mix (I-Mix2Mix) — фреймворк, который извлекает возможности редактирования из 2D диффузионной модели и применяет их к предобученной многовидовой диффузионной модели, используя ее основанные на данных 3D-принципы для обеспечения согласованности между видами.

Ключевые особенности

  • Замена традиционного нейронного консолидатора поля в методе Score Distillation Sampling (SDS) на многовидового диффузионного студента.
  • Постепенные обновления студента на разных временных этапах.
  • Специальный планировщик шума учителя для предотвращения ухудшения результатов.
  • Модификация внимания, которая улучшает согласованность между видами без дополнительных затрат.

Результаты экспериментов

Эксперименты показывают, что I-Mix2Mix значительно улучшает согласованность между видами, сохраняя при этом высокое качество редактирования для каждого кадра.