Введение
В последние годы мы наблюдаем значительный прогресс в области унифицированных мультимодальных моделей. Однако остается важный вопрос: действительно ли понимание влияет на генерацию?
Исследование с помощью UniSandbox
Для изучения этого вопроса мы представляем UniSandbox — независимую оценочную платформу, использующую контролируемые синтетические наборы данных, чтобы избежать утечек данных и обеспечить детальный анализ.
Основные результаты
Наши результаты показывают значительный разрыв между пониманием и генерацией, который отражается в двух ключевых аспектах:
- Генерация рассуждений: Мы наблюдаем, что явный метод Chain-of-Thought (CoT) в модуле понимания эффективно устраняет этот разрыв.
- Передача знаний: CoT способствует процессу генерации, помогая извлекать вновь усвоенные знания.
Метод самоподготовки
Кроме того, мы показываем, что подход самоподготовки может успешно усвоить эту способность, позволяя неявное рассуждение во время генерации.
Архитектуры на основе запросов
Мы также обнаруживаем, что архитектуры на основе запросов обладают латентными свойствами, схожими с CoT, которые влияют на передачу знаний.
Заключение
UniSandbox предоставляет предварительные идеи для разработки будущих унифицированных архитектур и стратегий обучения, которые действительно помогут преодолеть разрыв между пониманием и генерацией.