VIDEOP2R: Понимание видео от восприятия до рассуждений

Введение

Усовершенствованное обучение с подкреплением (RFT) — это двухступенчатая структура, состоящая из контролируемого обучения (SFT) и обучения с подкреплением (RL), которая показала обнадеживающие результаты в улучшении способности рассуждения больших языковых моделей (LLMs). Однако расширение RFT для больших моделей языка видео (LVLMs) остается сложной задачей.

Предложение VideoP2R

Мы предлагаем VideoP2R, новую структуру RFT, ориентированную на процессы, которая улучшает рассуждения о видео, моделируя восприятие и рассуждение как отдельные процессы.

Этап SFT

На этапе SFT мы разработали трехступенчатый процесс для генерации VideoP2R-CoT-162K — высококачественного, ориентированного на процессы набора данных цепочки размышлений (CoT) для восприятия и рассуждения.

Этап RL

На этапе RL мы представляем новый алгоритм оптимизации групповой относительной политики с учетом процессов (PA-GRPO), который предоставляет отдельные вознаграждения за восприятие и рассуждение.

Результаты

Обширные эксперименты показывают, что VideoP2R достигает передового уровня (SotA) производительности на шести из семи тестов по рассуждению и пониманию видео. Исследования с абляцией дополнительно подтверждают эффективность нашего ориентированного на процессы моделирования и PA-GRPO, демонстрируя, что выводы модели о восприятии являются информационно достаточными для последующего рассуждения.

Один комментарий к “VIDEOP2R: Понимание видео от восприятия до рассуждений

  1. Интересно, что VideoP2R разделяет восприятие и рассуждение, что может значительно улучшить анализ видео. Как вы считаете, насколько это может повлиять на практическое применение в различных областях?

Обсуждение закрыто.