Введение
Несмотря на значительные достижения, многомодальные модели все еще имеют недостатки в области пространственного интеллекта. В этой работе мы исследуем возможность масштабирования многомодальных моделей для развития пространственного интеллекта в рамках семейства SenseNova-SI.
О SenseNova-SI
Модели SenseNova-SI построены на основе известных многомодальных основ, включая модели визуального понимания (такие как Qwen3-VL и InternVL3) и модели унифицированного понимания и генерации (например, Bagel).
Подход к построению
Мы применяем принципиальный подход к созданию высокоэффективного и надежного пространственного интеллекта, систематически курируя набор данных SenseNova-SI-8M, который включает восемь миллионов разнообразных образцов, организованных по строгой таксономии пространственных возможностей.
Результаты
SenseNova-SI демонстрирует беспрецедентные результаты на различных тестах пространственного интеллекта:
- 68.7% на VSI-Bench
- 43.3% на MMSI
- 85.6% на MindCube
- 54.6% на ViewSpatial
- 50.1% на SITE
При этом сохраняется высокая общая способность к многомодальному пониманию, например, 84.9% на MMBench-En.
Анализ данных
Мы также анализируем влияние масштабирования данных, обсуждаем ранние признаки появления общих возможностей, которые обеспечиваются обучением на разнообразных данных, и риски переобучения и языковых сокращений.
Интересно, как многомодальные модели могут развивать пространственный интеллект. Особенно впечатляют результаты тестов, демонстрирующие их эффективность в этой области.
Интересно, как многомодальные модели могут влиять на развитие пространственного интеллекта. Особенно впечатляют результаты тестов, упомянутые в статье, которые показывают их эффективность. Какие практические примеры использования таких моделей вы можете привести?