Обобщение моделей на разных уровнях сложности задач

Введение

Мы исследуем, насколько хорошо крупные языковые модели (LLMs) обобщают информацию при различных уровнях сложности задач. Это важный вопрос для эффективной обработки данных и оценки моделей.

Существующие исследования

Существующие исследования показывают противоречивые результаты относительно того, приводит ли обучение на более простых или сложных данных к лучшим результатам. Также остаётся неясным, на каких данных — простых или сложных — достигаются эти улучшения.

Методология

Мы проводим систематическую оценку обобщения LLMs, используя различные модели, наборы данных и группы примеров с разной сложностью. Мы ранжируем примеры в шести наборах данных, основываясь на выводах тысяч различных LLMs и теории отклика предметов (IRT), которая является хорошо установленным метрикой сложности в образовательном тестировании.

Объективная оценка

В отличие от предыдущих исследований, наши оценки сложности определяются исключительно на основе способностей различных LLMs, без учета человеческого мнения о сложности. Благодаря более объективному, масштабному и детализированному анализу, мы показываем, что обобщение на разных уровнях сложности часто ограничено.

Результаты

Обучение на простых или сложных данных не может обеспечить постоянные улучшения по всему диапазону сложностей. Эти результаты подчеркивают важность наличия различных уровней сложности как в обучающих, так и в оценочных данных для LLMs.