Введение в VQ-VA
В данной статье рассматривается концепция визуального вопросно-ответного взаимодействия (VQ-VA). Это включает в себя генерацию изображения в ответ на визуальный вопрос, а не текст. Эта способность недавно появилась в закрытых системах, таких как NanoBanana и GPT-Image.
VQ-VA World
Чтобы адаптировать эту технологию для открытых моделей, мы представляем VQ-VA World — фреймворк, ориентированный на данные, который строится вокруг агентного пайплайна для масштабного и целенаправленного создания данных. Используя развертывание на уровне интернета, этот пайплайн собирает огромное количество (~1.8 миллиона) высококачественных образцов изображения и текста для обучения моделей.
Инструменты для оценки
Для оценки мы представляем IntelligentBench — набор данных, собранный вручную, который систематически оценивает VQ-VA по таким аспектам, как знание о мире, знание дизайна и логическое мышление.
Результаты
Обучение с использованием данных VQ-VA World приводит к значительным эмпирическим улучшениям. Это помогает LightFusion достичь результата 53.06 на IntelligentBench, что существенно превышает предыдущие открытые базы (7.78 для обычного LightFusion; 1.94 для UniWorld-V1) и значительно сокращает разрыв с ведущими закрытыми системами (например, 81.67 для NanoBanana; 82.64 для GPT-Image).
Заключение
Мы надеемся, что, выпустив полный набор весов моделей, наборы данных и пайплайны, мы сможем стимулировать дальнейшие исследования в этой области.
Интересно, как VQ-VA World предлагает новый фреймворк для визуального взаимодействия с данными. Это может значительно улучшить качество ответов на визуальные вопросы. Какие планы по дальнейшему развитию этой темы?