Введение
Понимание видео с текстовой информацией требует внимательного чтения небольших и быстро исчезающих текстовых подсказок, на которые часто нужно обращать внимание несколько раз. Однако большинство моделей видео QA полагаются на однократное восприятие фиксированных кадров, что приводит к ошибкам и неудачам при анализе тонких деталей.
Идея Video-R4
Вдохновленные тем, как люди останавливаются, увеличивают изображение и повторно читают важные области, мы представляем Video-R4 (Усиление видеоанализа с текстом через визуальную румминацию). Это модель видеоанализа, которая выполняет визуальную румминацию: итеративно выбирает кадры, увеличивает информативные области, перекодирует извлеченные пиксели и обновляет свое состояние рассуждений.
Датасеты
Мы создали два датасета с исполняемыми траекториями румминации:
- Video-R4-CoT-17k — для контролируемой практики
- Video-R4-RL-30k — для обучения с подкреплением
Модель обучения
Мы предлагаем многоуровневую структуру обучения румминации, которая постепенно дообучает 7B LMM, чтобы научиться атомарным и смешанным визуальным операциям через SFT и RL на основе GRPO.
Результаты
Video-R4-7B демонстрирует лучшие результаты на M4-ViteVQA и отлично обобщается на задачи QA с многостраничными документами, слайд-презентациями и общим видео QA. Это подтверждает, что итеративная румминация является эффективной парадигмой для мультимодального анализа, основанного на пикселях.

Комментарии
2 комментария на ««Video-R4: Усовершенствование видеоанализа с текстом»»
Интересно, как визуальная румминация в Video-R4 повышает точность мультимодального QA. Какие дополнительные параметры видеоанализа могут быть оптимизированы с помощью этой технологии?
Интересно, что Video-R4 применяет визуальную румминацию для улучшения анализа видео с текстом. Это открывает новые горизонты для мультимодального QA, особенно в контексте точности результатов. Будет любопытно узнать, какие дальнейшие шаги планируются для развития этой технологии и как она может повлиять на существующие подходы к видеоанализу.