Введение
Большие мультимодальные модели (БММ) все чаще используются в системах оценки благодаря их способности следовать инструкциям и соответствовать человеческим предпочтениям. Тем не менее, их способность учитывать разнообразные и детализированные критерии оценки остается недостаточно исследованной.
Что такое Multi-Crit?
Мы разработали Multi-Crit — бенчмарк для оценки мультимодальных судей, который позволяет проверить их способность следовать множественным критериям и давать надежные суждения на уровне критериев. Multi-Crit охватывает как открытые задания на генерацию, так и задачи, требующие проверки рассуждений. Он создан с помощью строгой процедуры обработки данных, которая собирает сложные пары ответов с многоуровневыми аннотациями от людей.
Новые метрики
В Multi-Crit введены три новые метрики для систематической оценки:
- Соблюдение множественных критериев;
- Гибкость в переключении между критериями;
- Способность распознавать конфликты предпочтений на уровне критериев.
Результаты анализа
Обширный анализ 25 БММ показывает, что:
- Проприетарные модели все еще имеют сложности с поддержанием последовательного соблюдения множественных критериев, особенно в открытой оценке;
- Открытые модели значительно отстают в гибкости следования разнообразным критериям;
- Тонкая настройка критиков с учетом целостных сигналов оценки улучшает визуальную привязку.