VQ-VA World: Новый подход к визуальному вопросно-ответному взаимодействию — Без рубрики

Введение в VQ-VA

В данной статье рассматривается концепция визуального вопросно-ответного взаимодействия (VQ-VA). Это включает в себя генерацию изображения в ответ на визуальный вопрос, а не текст. Эта способность недавно появилась в закрытых системах, таких как NanoBanana и GPT-Image.

VQ-VA World

Чтобы адаптировать эту технологию для открытых моделей, мы представляем VQ-VA World — фреймворк, ориентированный на данные, который строится вокруг агентного пайплайна для масштабного и целенаправленного создания данных. Используя развертывание на уровне интернета, этот пайплайн собирает огромное количество (~1.8 миллиона) высококачественных образцов изображения и текста для обучения моделей.

Инструменты для оценки

Для оценки мы представляем IntelligentBench — набор данных, собранный вручную, который систематически оценивает VQ-VA по таким аспектам, как знание о мире, знание дизайна и логическое мышление.

Результаты

Обучение с использованием данных VQ-VA World приводит к значительным эмпирическим улучшениям. Это помогает LightFusion достичь результата 53.06 на IntelligentBench, что существенно превышает предыдущие открытые базы (7.78 для обычного LightFusion; 1.94 для UniWorld-V1) и значительно сокращает разрыв с ведущими закрытыми системами (например, 81.67 для NanoBanana; 82.64 для GPT-Image).

Заключение

Мы надеемся, что, выпустив полный набор весов моделей, наборы данных и пайплайны, мы сможем стимулировать дальнейшие исследования в этой области.

Один комментарий к “VQ-VA World: Новый подход к визуальному вопросно-ответному взаимодействию”

Ирина Володина:

13.03.2026 в 14:15

Интересно, как VQ-VA World предлагает новый фреймворк для визуального взаимодействия с данными. Это может значительно улучшить качество ответов на визуальные вопросы. Какие планы по дальнейшему развитию этой темы?

Обсуждение закрыто.