Введение в MCQA
Множественный выбор (MCQA) стал популярным форматом для оценки и дообучения современных мультимодальных языковых моделей. Его ограниченный формат вывода позволяет упростить автоматическую проверку. Однако мы обнаружили, что варианты ответов могут содержать уязвимые сигналы, что делает метрики точности ненадежными для оценки реальных возможностей моделей и способствует угадыванию ответов во время дообучения.
Предложение ReVeL
Мы представляем ReVeL (Переписывание и Проверка с помощью LLM) — фреймворк, который преобразует вопросы с множественным выбором в открытые вопросы, сохраняя возможность проверки ответов. Фреймворк классифицирует вопросы в зависимости от типов ответов и применяет различные схемы переписывания и проверки.
Применение для дообучения
При применении ReVeL для дообучения мы преобразовали 20 тысяч примеров MCQA и использовали GRPO для дообучения моделей Qwen2.5-VL. Модели, обученные с использованием ReVeL-OpenQA, показывают такую же точность, как и MCQA на тестах с множественным выбором, и улучшают точность OpenQA примерно на шесть процентных пунктов. Это указывает на более эффективное использование данных и более надежные сигналы вознаграждения по сравнению с обучением на основе MCQA.
Оценка и результаты
При использовании ReVeL для оценки также было выявлено до 20 процентных пунктов завышения оценок в…
Фреймворк ReVeL предлагает интересный подход к оценке мультимодальных языковых моделей, акцентируя внимание на открытых вопросах. Это позволяет глубже анализировать качество генерации текста, учитывая контекст и многозначность. Важно обсудить, как эти идеи могут быть применены в реальных задачах, например, в обучении моделей для более точного понимания пользовательских запросов.