Введение в редактирование изображений с помощью инструкций
Редактирование изображений на основе инструкций предоставляет пользователям интуитивно понятный способ работы с изображениями с использованием естественного языка. Однако модели редактирования, основанные на диффузии, часто испытывают трудности с точной интерпретацией сложных пользовательских инструкций, особенно тех, которые касаются композиций, контекстуальных подсказок или ссылочных выражений. Это приводит к редактированию, которое теряет семантическую точность или не отражает задуманное изменение.
Решение проблемы с MIRA
Мы предлагаем MIRA (Многофункциональный Итеративный Агент Рассуждений), легковесный и удобный в использовании агент, который осуществляет редактирование через итеративный цикл восприятия, рассуждения и действия. Это эффективно моделирует многократное взаимодействие человека с моделью. Вместо того чтобы выдавать единую подсказку или статический план, MIRA предсказывает атомарные инструкции по редактированию шаг за шагом, используя визуальную обратную связь для принятия решений.
Данные и обучение MIRA
Наша база данных инструментов с множественными режимами использования, MIRA-Editing, насчитывающая 150 000 примеров, в сочетании с двухступенчатой системой обучения SFT + GRPO, позволяет MIRA проводить рассуждения и редактирование по сложным инструкциям. Взаимодействуя с открытыми моделями редактирования изображений, такими как Flux.1-Kontext, Step1X-Edit и Qwen-Image-Edit, MIRA значительно улучшает как семантическую согласованность, так и качество восприятия.