Upsample Anything: Новый подход к увеличению разрешения

Введение в Upsample Anything

Мы представляем проект Upsample Anything — легковесную систему оптимизации в процессе тестирования (TTO), которая восстанавливает низкоразрешающие признаки в высокоразрешающие, пиксельные результаты без необходимости обучения. Несмотря на то, что модели Vision Foundation демонстрируют высокую обобщаемость в различных задачах, их представления обычно уменьшаются в 14-16 раз (например, ViT), что ограничивает их применение в задачах на уровне пикселей.

Проблемы существующих методов

Существующие подходы к увеличению разрешения признаков зависят от повторного обучения на специфических наборах данных или сложной оптимизации, что ограничивает их масштабируемость и обобщаемость. Upsample Anything решает эти проблемы с помощью простой оптимизации для каждого изображения, которая изучает анизотропное гауссово ядро, объединяющее пространственные и диапазонные сигналы.

Как это работает

Эффективно связывая методы Gaussian Splatting и Joint Bilateral Upsampling, изученное ядро действует как универсальный оператор, учитывающий края, который без усилий адаптируется к различным архитектурам и модальностям. Это позволяет точно восстанавливать высокоразрешающие признаки, карты глубины или вероятности.

Преимущества и производительность

Проект работает всего примерно 0,419 секунды на изображение размером 224×224 пикселя и демонстрирует выдающиеся результаты в задачах семантической сегментации, оценки глубины, а также увеличения карт глубины и вероятности.

Один комментарий к “Upsample Anything: Новый подход к увеличению разрешения

  1. Метод Upsample Anything действительно интересен благодаря своей легковесности и высоким результатам без необходимости в обучении. Как вы думаете, в каких сферах можно было бы применить этот подход на практике?

Обсуждение закрыто.