MiMo-Embodied — первая кросс-объединенная модель с выдающимися результатами в автономном вождении и интегрированном ИИ.
Рубрика: Статьи об искусственном интеллекте
Изучите, как модель VANS использует видео для предсказания событий и решения задач, связанных с мультимодальными входами.
Узнайте о SAM2S — новой модели сегментации объектов в хирургических видео, позволяющей улучшить долгосрочное отслеживание и понимание инструментов.
Узнайте, как первый кадр влияет на настройку видео-контента и как добиться универсальности с минимальным количеством примеров.
Step-Audio-R1 – новая модель, способная к аудио-рассуждениям, показывает превосходные результаты в понимании звуков.
Изучите, как Thinking-while-Generating улучшает визуальную генерацию через текстовое рассуждение.
Научитесь о NaTex — новом подходе к генерации текстур с использованием латентной диффузии цвета и управления геометрией в 3D-пространстве.
Исследуем масштабирование многомодальных моделей для развития пространственного интеллекта и их достижения в тестах.
ТуркКолБЕРТ: оценка плотных и поздних моделей для поиска информации на турецком языке.
Узнайте о SRPO – новой рамочной структуре для моделей VLA, преодолевающей ограничения с помощью самоссылок.