NAF: Увеличение разрешения без обучения с помощью внимания соседей

Введение

Модели фундаментального зрения (VFMs) извлекают пространственно уменьшенные представления, что создает трудности для задач на уровне пикселей. Существующие методы увеличения разрешения сталкиваются с основной проблемой: классические фильтры работают быстро и универсально, но используют фиксированные формы, тогда как современные методы обеспечивают более высокую точность за счет обучаемых форм, специфичных для VFMs, что требует перенастройки для каждой модели.

Neighborhood Attention Filtering (NAF)

Мы представляем Neighborhood Attention Filtering (NAF), который преодолевает этот разрыв, обучая адаптивные пространственно-содержательные веса с помощью метода кросс-мастабного внимания соседей и ротационных позиционных вложений (RoPE), ориентируясь исключительно на входное изображение высокого разрешения. NAF работает в режиме zero-shot: он увеличивает разрешение признаков из любой VFM без необходимости в повторном обучении, что делает его первой VFM-агностической архитектурой, которая превосходит специфические для VFM методы увеличения разрешения и достигает передового уровня производительности по множеству задач.

Эффективность и универсальность

NAF сохраняет высокую эффективность, масштабируясь до 2K признаков и восстанавливая промежуточные карты разрешения со скоростью 18 FPS. Кроме увеличения разрешения признаков, NAF демонстрирует отличные результаты в восстановлении изображений, подчеркивая свою универсальность.