Введение
Для обучения моделей обнаружения запрещенных предметов требуется большое количество рентгеновских изображений с охранных систем. Однако сбор и аннотирование этих изображений занимает много времени и сил.
Проблема нехватки данных
Чтобы решить проблему недостатка данных, методы синтеза рентгеновских изображений комбинируют изображения для увеличения наборов данных. Ранее используемые методы, как правило, следовали двухступенчатой схеме, где сначала выполнялась трудоемкая экстракция переднего плана, а затем комбинирование изображений. Такая схема приводит к дополнительным затратам труда и неэффективна.
Предлагаемое решение
В данной статье мы предлагаем одноступенчатую схему синтеза рентгеновских изображений для охранных систем (Xsyn), основанную на генерации изображений из текста. В нашем подходе используются две эффективные стратегии для повышения удобства использования синтетических изображений:
- Стратегия уточнения с помощью перекрестного внимания (CAR): использует карту перекрестного внимания из модели диффузии для уточнения аннотации ограничивающего прямоугольника.
- Моделирование окклюзии фона (BOM): явно моделирует окклюзию фона в скрытом пространстве для повышения сложности изображения.
Насколько нам известно, Xsyn является первым методом, который достигает высококачественного синтеза рентгеновских изображений без дополнительных затрат труда.