Стабильность представления правды в больших языковых моделях — Без рубрики

Введение

Большие языковые модели (БЯМ) широко применяются для выполнения фактических задач, таких как «Что лечит астму?» или «Какова столица Латвии?». Однако остаётся неясным, насколько стабильно БЯМ кодируют различия между истинным, ложным и неопределённым содержанием в своих внутренних вероятностных представлениях.

Представительская стабильность

Мы вводим понятие представительской стабильности как устойчивость представлений правды БЯМ к изменениям в оперативном определении истины. Мы оцениваем представленность стабильности, (i) обучая линейный пробник на активациях БЯМ для отделения истинных утверждений от ложных и (ii) измеряя, как изменяется его обученная граница принятия решений при контролируемых изменениях меток.

Методология

Используя активации из шестнадцати открытых моделей и три фактические области, мы сравниваем два типа неопределённых утверждений. Первые представляют собой фактические утверждения о сущностях, которые, как мы считаем, отсутствуют в любых обучающих данных. Мы называем их незнакомыми неопределёнными утверждениями. Вторые — это не фактические утверждения, взятые из известных вымышленных контекстов. Мы называем их знакомыми неопределёнными утверждениями.

Результаты

Незнакомые утверждения вызывают наибольшие изменения границы, приводя к изменению до 40% суждений о правде в нестабильных областях.