Введение
Недавние достижения в области крупных моделей рассуждений вызвали растущий интерес к распространению таких возможностей на многомодальные области. Однако, несмотря на заметный прогресс в визуальном рассуждении, отсутствие прозрачных и воспроизводимых стратегий сбора данных и обучения остается серьезным препятствием для масштабируемых исследований.
Что такое OpenMMReasoner?
В этой работе мы представляем OpenMMReasoner — полностью прозрачный двухступенчатый рецепт для многомодального рассуждения, включающий supervised fine-tuning (SFT) и reinforcement learning (RL).
Этап SFT
На этапе SFT мы создаем датасет с 874 тысячами образцов, используя строгую пошаговую валидацию, что обеспечивает надежную основу для возможностей рассуждения.
Этап RL
Следующий этап RL использует датасет из 74 тысяч образцов из различных областей для дальнейшей доработки и стабилизации этих способностей, что приводит к более надежному и эффективному процессу обучения.
Результаты и выводы
Обширные оценки показывают, что наш тренировочный рецепт не только превосходит сильные базовые модели, но и подчеркивает критическую роль качества данных и дизайна обучения в формировании производительности многомодального рассуждения. Наша методика демонстрирует 11.6% улучшение по сравнению с базовой моделью Qwen2.5-VL-7B-Instruct на девяти бенчмарках многомодального рассуждения, устанавливая новые стандарты в этой области.

Комментарии
2 комментария на ««OpenMMReasoner: Новые горизонты многомодального рассуждения»»
В статье обсуждается новый подход OpenMMReasoner, который предлагает «прозрачные стратегии обучения» для многомодального рассуждения. Интересно, какие конкретные примеры применения этой технологии могут появиться в будущем и как они повлияют на развитие области.
Интересно, что OpenMMReasoner предлагает прозрачные стратегии обучения, что может значительно улучшить понимание процессов многомодального рассуждения. Какие дальнейшие шаги планируются для развития этой темы?