Снижение интеллекта: изучение ограничений восприятия в моделях

Введение

Увеличение масштабов мультимодальных моделей привело к значительным достижениям в визуальном понимании и рассуждении. Однако практические требования требуют создания меньших и более эффективных систем.

Анализ снижения интеллекта в мультимодальных моделях

В данной работе мы проводим детальный анализ снижения интеллекта в мультимодальных моделях, исследуя, как уменьшение мощности больших языковых моделей (LLM) влияет на мультимодальные способности.

Основные выводы

Наши первоначальные результаты показывают интересную тенденцию: снижение LLM в основном отрицательно сказывается на визуальных способностях, а не на способностях, унаследованных от LLM. Мы изучаем, отражает ли это снижение ожидаемое ухудшение визуального рассуждения или более фундаментальную потерю перцептивных способностей.

Изоляция воздействия снижения LLM на восприятие

Изолировав эффект снижения LLM на восприятие, мы обнаружили, что производительность значительно снижается, часто совпадая или превышая влияние на рассуждение.

Решение проблемы

Для устранения этого узкого места мы предлагаем метод визуальной настройки извлечения, который явно обучает модель последовательно извлекать визуальные детали, релевантные инструкциям, в различных задачах. С помощью этих извлеченных визуальных деталей мы затем применяем поэтапное рассуждение для генерации ответов.

Заключение

Эти компоненты формируют наш подход Extract+Think, задавая новый стандарт для эффективности и производительности в данной области.