Мы представляем DPP-GRPO для улучшения разнообразия видео в ответ на текстовые запросы.
Рубрика: Без рубрики
Изучите MagicWorld — интерактивную модель видео мира с 3D геометрией и историческим извлечением.
Изучите ORS3D, новую задачу для агентов ИИ, и набор данных ORS3D-60K.
Изучите инновационные методы оценки 3D-траектории и вращения мяча в настольном теннисе с использованием современных технологий.
Узнайте, как концепто-ориентированная выборка улучшает предобучение языковых моделей на визуальных данных.
Изучите STARFlow-V — генератор видео на основе нормализующих потоков с улучшенной согласованностью и эффективностью.
CLaRa объединяет извлечение и генерацию информации, обеспечивая высокое качество ответов и эффективное сжатие данных.
Nemotron-Parse-1.1 улучшает возможности OCR и парсинга документов, предлагая новые функции и высокую точность.
Изучите, как визуальное восприятие и язык взаимодействуют для улучшения абстрактного рассуждения в ARC.
ROOT — новый ортогонализированный оптимизатор, улучшающий стабильность обучения нейронных сетей.