Введение
Сегментация видео в хирургии играет важную роль в компьютерно-ассистированной хирургии, позволяя точно локализовать и отслеживать инструменты и ткани.
Проблемы текущих моделей
Модели интерактивной сегментации видео объектов (iVOS), такие как Segment Anything Model 2 (SAM2), предлагают гибкость на основе запросов, но сталкиваются с трудностями в хирургических сценариях из-за разрыва в области применения и ограниченного долгосрочного отслеживания.
Решение
Чтобы преодолеть эти ограничения, мы разработали SA-SV — крупнейший бенчмарк iVOS для хирургии с аннотациями на уровне экземпляров (masklets), охватывающий восемь типов процедур (61 000 кадров, 1 600 masklets). Это позволяет всестороннее развитие и оценку для долгосрочного отслеживания и нулевой генерализации.
Предложение SAM2S
На основе SA-SV мы предлагаем SAM2S, модифицированную модель, которая улучшает SAM2 для хирургической iVOS через:
- DiveMem: обучаемый механизм разнообразной памяти для надежного долгосрочного отслеживания;
- Темпоральное семантическое обучение: для понимания инструментов;
- Обучение, устойчивое к неоднозначностям: для снижения несоответствий аннотаций в мультимедийных наборах данных.
Результаты
Обширные эксперименты показывают, что дообучение на SA-SV обеспечивает значительные улучшения производительности, при этом SAM2 показывает прирост на 12.99 в среднем по J&F.
Интересно, как модель SAM2S может повысить качество долгосрочного отслеживания хирургических инструментов. Упоминание о том, что она улучшает понимание видео, действительно впечатляет. Как вы думаете, какие еще области медицины могут выиграть от применения этой технологии?
Модель SAM2S действительно открывает новые возможности для долгосрочного отслеживания инструментов в хирургии, что может значительно улучшить качество операций. Интересно, как это будет применяться на практике в реальных условиях операционных.