ARC-Chapter: Как структурировать длинные видео в главы — Без рубрики

Введение

С увеличением числа часов длительных видео (таких как лекции, подкасты, документальные фильмы) возросла необходимость в эффективной структуре контента. Однако существующие методы сталкиваются с ограничениями из-за небольшого объема обучающих данных, которые обычно содержат короткие и грубые аннотации. Это затрудняет обобщение на тонкие переходы в длинных видео.

Что такое ARC-Chapter?

Мы представляем ARC-Chapter – первую модель для структурирования видео, обученную на более чем миллионе глав длинных видео. Она включает двуязычные, временно обоснованные и иерархические аннотации глав.

Как мы это сделали

Для достижения этой цели мы собрали двуязычный набор данных глав на английском и китайском языках с помощью структурированной схемы, которая объединяет транскрипты автоматического распознавания речи (ASR), текстовые сцены и визуальные подписи в многоуровневые аннотации, начиная от коротких заголовков и заканчивая длинными резюме.

Результаты

Мы продемонстрировали заметные улучшения в производительности при увеличении объема данных, как в объеме данных, так и в интенсивности аннотаций. Мы также разработали новую метрику оценки под названием GRACE, которая учитывает перекрытие сегментов и семантическое сходство, лучше отражая гибкость структурирования глав в реальных условиях.

Заключение

Обширные эксперименты показывают, что ARC-Chapter устанавливает новый рекорд в данной области, значительно превосходя предыдущие достижения на 14%.

Один комментарий к “ARC-Chapter: Как структурировать длинные видео в главы”

Анна Ивановна:

04.01.2026 в 10:15

Структурирование длинных видео в главы действительно может улучшить восприятие контента. Интересно, какие именно метрики использует ARC-Chapter для оценки эффективности этого подхода?

Обсуждение закрыто.