Изучение внутреннего измерения текстов: от научного абстракта до творчества

Введение

Внутреннее измерение (ID) является важным инструментом в современном анализе больших языковых моделей (LLM), который помогает изучать динамику обучения, поведение при масштабировании и структуру наборов данных. Однако его текстовые детерминанты остаются недостаточно исследованными.

Основные результаты исследования

В данной работе мы представляем первое комплексное исследование, связывающее ID с интерпретируемыми текстовыми свойствами через анализ кросс-энкодеров, лингвистические характеристики и разреженные автокодировщики (SAE). Мы выделяем три ключевых вывода:

1. Взаимосвязь ID и энтропии

  • ID дополняет метрики, основанные на энтропии: после контроля за длиной текста, эти два показателя не коррелируют, причем ID отражает геометрическую сложность, которая является ортогональной качеству предсказания.

2. Жанровая стратификация ID

  • ID демонстрирует явную жанровую стратификацию: научный текст имеет низкий ID (~8), энциклопедический контент — средний ID (~9), а творческое и мнения — высокий ID (~10.5) по всем протестированным моделям.

3. Идентификация причинных факторов с помощью SAE

  • С использованием SAE мы выявили причинные признаки: научные сигналы (формальный стиль, шаблоны отчетов, статистика) уменьшают ID; гуманизированные сигналы (персонализация, эмоциональность, повествование) увеличивают его.

Заключение

Эксперименты по управлению подтверждают, что эти эффекты являются причинными. Таким образом, для понимания…