Масштабирование пространственного интеллекта с помощью моделей

Масштабирование пространственного интеллекта с помощью моделей

Введение

Несмотря на значительные достижения, многомодальные модели все еще имеют недостатки в области пространственного интеллекта. В этой работе мы исследуем возможность масштабирования многомодальных моделей для развития пространственного интеллекта в рамках семейства SenseNova-SI.

О SenseNova-SI

Модели SenseNova-SI построены на основе известных многомодальных основ, включая модели визуального понимания (такие как Qwen3-VL и InternVL3) и модели унифицированного понимания и генерации (например, Bagel).

Подход к построению

Мы применяем принципиальный подход к созданию высокоэффективного и надежного пространственного интеллекта, систематически курируя набор данных SenseNova-SI-8M, который включает восемь миллионов разнообразных образцов, организованных по строгой таксономии пространственных возможностей.

Результаты

SenseNova-SI демонстрирует беспрецедентные результаты на различных тестах пространственного интеллекта:

  • 68.7% на VSI-Bench
  • 43.3% на MMSI
  • 85.6% на MindCube
  • 54.6% на ViewSpatial
  • 50.1% на SITE

При этом сохраняется высокая общая способность к многомодальному пониманию, например, 84.9% на MMBench-En.

Анализ данных

Мы также анализируем влияние масштабирования данных, обсуждаем ранние признаки появления общих возможностей, которые обеспечиваются обучением на разнообразных данных, и риски переобучения и языковых сокращений.

2 комментария для “Масштабирование пространственного интеллекта с помощью моделей

  1. Интересно, как многомодальные модели могут развивать пространственный интеллект. Особенно впечатляют результаты тестов, демонстрирующие их эффективность в этой области.

  2. Интересно, как многомодальные модели могут влиять на развитие пространственного интеллекта. Особенно впечатляют результаты тестов, упомянутые в статье, которые показывают их эффективность. Какие практические примеры использования таких моделей вы можете привести?

Обсуждение закрыто.