Введение
С увеличением числа часов длительных видео (таких как лекции, подкасты, документальные фильмы) возросла необходимость в эффективной структуре контента. Однако существующие методы сталкиваются с ограничениями из-за небольшого объема обучающих данных, которые обычно содержат короткие и грубые аннотации. Это затрудняет обобщение на тонкие переходы в длинных видео.
Что такое ARC-Chapter?
Мы представляем ARC-Chapter – первую модель для структурирования видео, обученную на более чем миллионе глав длинных видео. Она включает двуязычные, временно обоснованные и иерархические аннотации глав.
Как мы это сделали
Для достижения этой цели мы собрали двуязычный набор данных глав на английском и китайском языках с помощью структурированной схемы, которая объединяет транскрипты автоматического распознавания речи (ASR), текстовые сцены и визуальные подписи в многоуровневые аннотации, начиная от коротких заголовков и заканчивая длинными резюме.
Результаты
Мы продемонстрировали заметные улучшения в производительности при увеличении объема данных, как в объеме данных, так и в интенсивности аннотаций. Мы также разработали новую метрику оценки под названием GRACE, которая учитывает перекрытие сегментов и семантическое сходство, лучше отражая гибкость структурирования глав в реальных условиях.
Заключение
Обширные эксперименты показывают, что ARC-Chapter устанавливает новый рекорд в данной области, значительно превосходя предыдущие достижения на 14%.
Структурирование длинных видео в главы действительно может улучшить восприятие контента. Интересно, какие именно метрики использует ARC-Chapter для оценки эффективности этого подхода?