GigaWorld-0: Модель мира как движок данных для ИИ

Введение в GigaWorld-0

Модели мира становятся основополагающей парадигмой для масштабируемого и эффективного использования данных в области воплощенного ИИ. В этой работе мы представляем GigaWorld-0, унифицированную модель мира, разработанную специально как движок данных для обучения с использованием связи «зрение-язык-действие» (VLA).

Компоненты GigaWorld-0

GigaWorld-0 включает два взаимодополняющих компонента:

  • GigaWorld-0-Video: использует генерацию видео крупного масштаба для создания разнообразных, текстурно насыщенных и временно последовательных последовательностей действий с точным контролем внешнего вида, точки зрения камеры и семантики действий.
  • GigaWorld-0-3D: сочетает 3D генеративное моделирование, реконструкцию методом 3D Gaussian Splatting, физически дифференцируемую идентификацию систем и планирование движений для обеспечения геометрической согласованности и физической реалистичности.

Оптимизация и обучение

Совместная оптимизация этих компонентов позволяет масштабируемо синтезировать данные взаимодействия, которые являются визуально привлекательными, пространственно согласованными, физически правдоподобными и соответствующими инструкциям. Обучение на большом объеме данных становится возможным благодаря нашей эффективной системе GigaTrain, которая использует FP8-прецизионность и разреженное внимание для значительного сокращения требований к памяти и вычислительным ресурсам.

Оценка качества

Мы проводим всесторонние оценки, показывающие, что GigaWorld-0 генерирует высококачественные данные…