Введение
Большие языковые модели (LLMs) способны решать сложные задачи, но иногда не справляются с более простыми вариантами. Это говорит о том, что они достигают правильных результатов с помощью механизмов, которые fundamentally отличаются от человеческого мышления.
Когнитивные элементы
Чтобы понять эту разницу, мы обобщили исследования в области когнитивной науки и создали таксономию из 28 когнитивных элементов. Эти элементы охватывают:
- инварианты рассуждений,
- мета-когнитивное управление,
- представления для организации рассуждений и знаний,
- операции преобразования.
Оценка и анализ
Мы разработали детализированную рамку для оценки и провели первое масштабное эмпирическое исследование, анализируя 192 тысячи трасс из 18 моделей, охватывающих текст, визуальные и аудио данные. Это исследование было дополнено 54 трассами, где люди делились своими мыслями, и мы сделали эти данные общедоступными.
Результаты
Наши результаты показывают, что модели недостаточно используют когнитивные элементы, связанные с успехом. Они часто ограничиваются жесткой последовательной обработкой при решении плохо структурированных задач, где критически важны разнообразные представления и мета-когнитивный мониторинг.
Человеческие трассы демонстрируют больше абстракции и концептуальной обработки, тогда как модели чаще всего прибегают к поверхностному перечислению.
Анализ исследований
Мета-анализ 1.6 тысячи работ по рассуждениям LLM показывает, что исследовательское сообщество сосредоточено на легко количественно измеримых элементах (например, последовательная организация: 55%, декомпозиция: 60%), но игнорирует более сложные аспекты.