Масштабирование пространственного интеллекта с помощью моделей — Статьи об искусственном интеллекте

Введение

Несмотря на значительные достижения, многомодальные модели все еще имеют недостатки в области пространственного интеллекта. В этой работе мы исследуем возможность масштабирования многомодальных моделей для развития пространственного интеллекта в рамках семейства SenseNova-SI.

О SenseNova-SI

Модели SenseNova-SI построены на основе известных многомодальных основ, включая модели визуального понимания (такие как Qwen3-VL и InternVL3) и модели унифицированного понимания и генерации (например, Bagel).

Подход к построению

Мы применяем принципиальный подход к созданию высокоэффективного и надежного пространственного интеллекта, систематически курируя набор данных SenseNova-SI-8M, который включает восемь миллионов разнообразных образцов, организованных по строгой таксономии пространственных возможностей.

Результаты

SenseNova-SI демонстрирует беспрецедентные результаты на различных тестах пространственного интеллекта:

68.7% на VSI-Bench
43.3% на MMSI
85.6% на MindCube
54.6% на ViewSpatial
50.1% на SITE

При этом сохраняется высокая общая способность к многомодальному пониманию, например, 84.9% на MMBench-En.

Анализ данных

Мы также анализируем влияние масштабирования данных, обсуждаем ранние признаки появления общих возможностей, которые обеспечиваются обучением на разнообразных данных, и риски переобучения и языковых сокращений.

2 комментария для “Масштабирование пространственного интеллекта с помощью моделей”

Анна Ивановна:

18.12.2025 в 10:15

Интересно, как многомодальные модели могут развивать пространственный интеллект. Особенно впечатляют результаты тестов, демонстрирующие их эффективность в этой области.
Анна Ивановна:

18.12.2025 в 11:15

Интересно, как многомодальные модели могут влиять на развитие пространственного интеллекта. Особенно впечатляют результаты тестов, упомянутые в статье, которые показывают их эффективность. Какие практические примеры использования таких моделей вы можете привести?

Обсуждение закрыто.