Новый подход к оценке: Открытые вопросы для моделей языка

Введение в MCQA

Множественный выбор (MCQA) стал популярным форматом для оценки и дообучения современных мультимодальных языковых моделей. Его ограниченный формат вывода позволяет упростить автоматическую проверку. Однако мы обнаружили, что варианты ответов могут содержать уязвимые сигналы, что делает метрики точности ненадежными для оценки реальных возможностей моделей и способствует угадыванию ответов во время дообучения.

Предложение ReVeL

Мы представляем ReVeL (Переписывание и Проверка с помощью LLM) — фреймворк, который преобразует вопросы с множественным выбором в открытые вопросы, сохраняя возможность проверки ответов. Фреймворк классифицирует вопросы в зависимости от типов ответов и применяет различные схемы переписывания и проверки.

Применение для дообучения

При применении ReVeL для дообучения мы преобразовали 20 тысяч примеров MCQA и использовали GRPO для дообучения моделей Qwen2.5-VL. Модели, обученные с использованием ReVeL-OpenQA, показывают такую же точность, как и MCQA на тестах с множественным выбором, и улучшают точность OpenQA примерно на шесть процентных пунктов. Это указывает на более эффективное использование данных и более надежные сигналы вознаграждения по сравнению с обучением на основе MCQA.

Оценка и результаты

При использовании ReVeL для оценки также было выявлено до 20 процентных пунктов завышения оценок в…