Введение в Upsample Anything
Мы представляем проект Upsample Anything — легковесную систему оптимизации в процессе тестирования (TTO), которая восстанавливает низкоразрешающие признаки в высокоразрешающие, пиксельные результаты без необходимости обучения. Несмотря на то, что модели Vision Foundation демонстрируют высокую обобщаемость в различных задачах, их представления обычно уменьшаются в 14-16 раз (например, ViT), что ограничивает их применение в задачах на уровне пикселей.
Проблемы существующих методов
Существующие подходы к увеличению разрешения признаков зависят от повторного обучения на специфических наборах данных или сложной оптимизации, что ограничивает их масштабируемость и обобщаемость. Upsample Anything решает эти проблемы с помощью простой оптимизации для каждого изображения, которая изучает анизотропное гауссово ядро, объединяющее пространственные и диапазонные сигналы.
Как это работает
Эффективно связывая методы Gaussian Splatting и Joint Bilateral Upsampling, изученное ядро действует как универсальный оператор, учитывающий края, который без усилий адаптируется к различным архитектурам и модальностям. Это позволяет точно восстанавливать высокоразрешающие признаки, карты глубины или вероятности.
Преимущества и производительность
Проект работает всего примерно 0,419 секунды на изображение размером 224×224 пикселя и демонстрирует выдающиеся результаты в задачах семантической сегментации, оценки глубины, а также увеличения карт глубины и вероятности.
Метод Upsample Anything действительно интересен благодаря своей легковесности и высоким результатам без необходимости в обучении. Как вы думаете, в каких сферах можно было бы применить этот подход на практике?