Video-R4: Усовершенствование видеоанализа с текстом

Video-R4: Усовершенствование видеоанализа с текстом

Введение

Понимание видео с текстовой информацией требует внимательного чтения небольших и быстро исчезающих текстовых подсказок, на которые часто нужно обращать внимание несколько раз. Однако большинство моделей видео QA полагаются на однократное восприятие фиксированных кадров, что приводит к ошибкам и неудачам при анализе тонких деталей.

Идея Video-R4

Вдохновленные тем, как люди останавливаются, увеличивают изображение и повторно читают важные области, мы представляем Video-R4 (Усиление видеоанализа с текстом через визуальную румминацию). Это модель видеоанализа, которая выполняет визуальную румминацию: итеративно выбирает кадры, увеличивает информативные области, перекодирует извлеченные пиксели и обновляет свое состояние рассуждений.

Датасеты

Мы создали два датасета с исполняемыми траекториями румминации:

  • Video-R4-CoT-17k — для контролируемой практики
  • Video-R4-RL-30k — для обучения с подкреплением

Модель обучения

Мы предлагаем многоуровневую структуру обучения румминации, которая постепенно дообучает 7B LMM, чтобы научиться атомарным и смешанным визуальным операциям через SFT и RL на основе GRPO.

Результаты

Video-R4-7B демонстрирует лучшие результаты на M4-ViteVQA и отлично обобщается на задачи QA с многостраничными документами, слайд-презентациями и общим видео QA. Это подтверждает, что итеративная румминация является эффективной парадигмой для мультимодального анализа, основанного на пикселях.

Комментарии

2 комментария на ««Video-R4: Усовершенствование видеоанализа с текстом»»

  1. Аватар пользователя Анна Ивановна
    Анна Ивановна

    Интересно, как визуальная румминация в Video-R4 повышает точность мультимодального QA. Какие дополнительные параметры видеоанализа могут быть оптимизированы с помощью этой технологии?

  2. Аватар пользователя Анна Ивановна
    Анна Ивановна

    Интересно, что Video-R4 применяет визуальную румминацию для улучшения анализа видео с текстом. Это открывает новые горизонты для мультимодального QA, особенно в контексте точности результатов. Будет любопытно узнать, какие дальнейшие шаги планируются для развития этой технологии и как она может повлиять на существующие подходы к видеоанализу.