Введение в M3-Bench
Мы представляем M3-Bench, первый бенчмарк для оценки мультимодального использования инструментов в рамках Протокола Модельного Контекста. Этот бенчмарк нацелен на реалистичные рабочие процессы, которые требуют многократных шагов и многопоточности, а также визуального обоснования и текстового рассуждения.
Особенности бенчмарка
- Работа с зависимостями между инструментами.
- Сохранение промежуточных ресурсов на разных этапах.
Методология
Мы вводим метод выравнивания, основанный на сходстве, который сериализует каждый вызов инструмента, внедряет подписи с помощью энкодера предложений и выполняет сопоставление с использованием венгерского метода для получения аудируемых однозначных соответствий.
Метрики оценки
На основе этого выравнивания мы представляем интерпретируемые метрики, которые отделяют семантическую точность от согласованности рабочего процесса. Бенчмарк охватывает 28 серверов с 231 инструментом и предоставляет стандартизированные траектории, подготовленные через процесс «Исполнитель и Судья» с человеческой верификацией.
Оценка мультимодальных LLM
Дополнительно, четыре крупных языковых модели (LLM) оценивают выполнение задач и обоснование информации. Оценки представителей современных мультимодальных LLM (MLLM) показывают существенные пробелы в использовании инструментов MCP, особенно в точности аргументации и согласованности структуры. Это подчеркивает необходимость методов, которые совместно обрабатывают изображения, текст и инструменты.