M3-Bench: Оценка мультимодального использования инструментов — Без рубрики

Введение в M3-Bench

Мы представляем M³-Bench, первый бенчмарк для оценки мультимодального использования инструментов в рамках Протокола Модельного Контекста. Этот бенчмарк нацелен на реалистичные рабочие процессы, которые требуют многократных шагов и многопоточности, а также визуального обоснования и текстового рассуждения.

Особенности бенчмарка

Работа с зависимостями между инструментами.
Сохранение промежуточных ресурсов на разных этапах.

Методология

Мы вводим метод выравнивания, основанный на сходстве, который сериализует каждый вызов инструмента, внедряет подписи с помощью энкодера предложений и выполняет сопоставление с использованием венгерского метода для получения аудируемых однозначных соответствий.

Метрики оценки

На основе этого выравнивания мы представляем интерпретируемые метрики, которые отделяют семантическую точность от согласованности рабочего процесса. Бенчмарк охватывает 28 серверов с 231 инструментом и предоставляет стандартизированные траектории, подготовленные через процесс «Исполнитель и Судья» с человеческой верификацией.

Оценка мультимодальных LLM

Дополнительно, четыре крупных языковых модели (LLM) оценивают выполнение задач и обоснование информации. Оценки представителей современных мультимодальных LLM (MLLM) показывают существенные пробелы в использовании инструментов MCP, особенно в точности аргументации и согласованности структуры. Это подчеркивает необходимость методов, которые совместно обрабатывают изображения, текст и инструменты.