Multi-Crit: Оценка мультимодальных судей по множественным критериям

Введение

Большие мультимодальные модели (БММ) все чаще используются в системах оценки благодаря их способности следовать инструкциям и соответствовать человеческим предпочтениям. Тем не менее, их способность учитывать разнообразные и детализированные критерии оценки остается недостаточно исследованной.

Что такое Multi-Crit?

Мы разработали Multi-Crit — бенчмарк для оценки мультимодальных судей, который позволяет проверить их способность следовать множественным критериям и давать надежные суждения на уровне критериев. Multi-Crit охватывает как открытые задания на генерацию, так и задачи, требующие проверки рассуждений. Он создан с помощью строгой процедуры обработки данных, которая собирает сложные пары ответов с многоуровневыми аннотациями от людей.

Новые метрики

В Multi-Crit введены три новые метрики для систематической оценки:

  • Соблюдение множественных критериев;
  • Гибкость в переключении между критериями;
  • Способность распознавать конфликты предпочтений на уровне критериев.

Результаты анализа

Обширный анализ 25 БММ показывает, что:

  • Проприетарные модели все еще имеют сложности с поддержанием последовательного соблюдения множественных критериев, особенно в открытой оценке;
  • Открытые модели значительно отстают в гибкости следования разнообразным критериям;
  • Тонкая настройка критиков с учетом целостных сигналов оценки улучшает визуальную привязку.