Video-R4: Усовершенствование видеоанализа с текстом — Статьи об искусственном интеллекте

Введение

Понимание видео с текстовой информацией требует внимательного чтения небольших и быстро исчезающих текстовых подсказок, на которые часто нужно обращать внимание несколько раз. Однако большинство моделей видео QA полагаются на однократное восприятие фиксированных кадров, что приводит к ошибкам и неудачам при анализе тонких деталей.

Идея Video-R4

Вдохновленные тем, как люди останавливаются, увеличивают изображение и повторно читают важные области, мы представляем Video-R4 (Усиление видеоанализа с текстом через визуальную румминацию). Это модель видеоанализа, которая выполняет визуальную румминацию: итеративно выбирает кадры, увеличивает информативные области, перекодирует извлеченные пиксели и обновляет свое состояние рассуждений.

Датасеты

Мы создали два датасета с исполняемыми траекториями румминации:

Video-R4-CoT-17k — для контролируемой практики
Video-R4-RL-30k — для обучения с подкреплением

Модель обучения

Мы предлагаем многоуровневую структуру обучения румминации, которая постепенно дообучает 7B LMM, чтобы научиться атомарным и смешанным визуальным операциям через SFT и RL на основе GRPO.

Результаты

Video-R4-7B демонстрирует лучшие результаты на M4-ViteVQA и отлично обобщается на задачи QA с многостраничными документами, слайд-презентациями и общим видео QA. Это подтверждает, что итеративная румминация является эффективной парадигмой для мультимодального анализа, основанного на пикселях.

2 комментария для “Video-R4: Усовершенствование видеоанализа с текстом”

Анна Ивановна:

04.12.2025 в 10:15

Интересно, как визуальная румминация в Video-R4 повышает точность мультимодального QA. Какие дополнительные параметры видеоанализа могут быть оптимизированы с помощью этой технологии?
Анна Ивановна:

04.12.2025 в 11:15

Интересно, что Video-R4 применяет визуальную румминацию для улучшения анализа видео с текстом. Это открывает новые горизонты для мультимодального QA, особенно в контексте точности результатов. Будет любопытно узнать, какие дальнейшие шаги планируются для развития этой технологии и как она может повлиять на существующие подходы к видеоанализу.

Обсуждение закрыто.