Введение в GigaWorld-0
Модели мира становятся основополагающей парадигмой для масштабируемого и эффективного использования данных в области воплощенного ИИ. В этой работе мы представляем GigaWorld-0, унифицированную модель мира, разработанную специально как движок данных для обучения с использованием связи «зрение-язык-действие» (VLA).
Компоненты GigaWorld-0
GigaWorld-0 включает два взаимодополняющих компонента:
- GigaWorld-0-Video: использует генерацию видео крупного масштаба для создания разнообразных, текстурно насыщенных и временно последовательных последовательностей действий с точным контролем внешнего вида, точки зрения камеры и семантики действий.
- GigaWorld-0-3D: сочетает 3D генеративное моделирование, реконструкцию методом 3D Gaussian Splatting, физически дифференцируемую идентификацию систем и планирование движений для обеспечения геометрической согласованности и физической реалистичности.
Оптимизация и обучение
Совместная оптимизация этих компонентов позволяет масштабируемо синтезировать данные взаимодействия, которые являются визуально привлекательными, пространственно согласованными, физически правдоподобными и соответствующими инструкциям. Обучение на большом объеме данных становится возможным благодаря нашей эффективной системе GigaTrain, которая использует FP8-прецизионность и разреженное внимание для значительного сокращения требований к памяти и вычислительным ресурсам.
Оценка качества
Мы проводим всесторонние оценки, показывающие, что GigaWorld-0 генерирует высококачественные данные…