InstructMix2Mix: Редактирование изображений с разных ракурсов — Без рубрики

Введение

Мы рассматриваем задачу редактирования изображений с разных ракурсов, используя ограниченное количество входных видов. Эти виды можно воспринимать как сочетание изображений, запечатлевающих сцену с различных точек зрения.

Цель и задачи

Цель заключается в том, чтобы изменить сцену в соответствии с текстовой инструкцией, сохраняя при этом согласованность во всех видах. Существующие методы, основанные на нейронных полях для каждой сцены или механизмах временного внимания, сталкиваются с трудностями в этой области, часто создавая артефакты и несогласованные изменения.

Предложение I-Mix2Mix

Мы предлагаем InstructMix2Mix (I-Mix2Mix) — фреймворк, который извлекает возможности редактирования из 2D диффузионной модели и применяет их к предобученной многовидовой диффузионной модели, используя ее основанные на данных 3D-принципы для обеспечения согласованности между видами.

Ключевые особенности

Замена традиционного нейронного консолидатора поля в методе Score Distillation Sampling (SDS) на многовидового диффузионного студента.
Постепенные обновления студента на разных временных этапах.
Специальный планировщик шума учителя для предотвращения ухудшения результатов.
Модификация внимания, которая улучшает согласованность между видами без дополнительных затрат.

Результаты экспериментов

Эксперименты показывают, что I-Mix2Mix значительно улучшает согласованность между видами, сохраняя при этом высокое качество редактирования для каждого кадра.