Мультимодальная оценка архитектур для русского языка — Без рубрики

Введение

Мультимодальные большие языковые модели (ММЛМ) в настоящее время находятся в центре внимания исследователей. Они демонстрируют быстрый прогресс в масштабе и возможностях, однако их интеллект, ограничения и риски остаются недостаточно понятными.

Цели исследования

Чтобы решить эти проблемы, особенно в контексте русского языка, где в настоящее время отсутствуют мультимодальные эталонные оценки, мы представляем Mera Multi — открытый мультимодальный фреймворк для оценки архитектур, работающих с русским языком.

Характеристика Mera Multi

Основывается на инструкциях.
Включает текст, изображения, аудио и видео.
Содержит 18 новых задач для оценки как универсальных моделей, так и специализированных архитектур (текст из изображений, текст из видео и текст из аудио).

Наши достижения

Ключевые элементы нашего исследования включают:

Универсальная таксономия мультимодальных способностей;
18 наборов данных, созданных с нуля с учетом русской культурной и языковой специфики, унифицированных подсказок и метрик;
Базовые результаты для закрытых и открытых моделей;
Методология предотвращения утечек эталонов, включая водяные знаки и лицензии для частных наборов.

Хотя мы сейчас сосредоточены на русском языке, предлагаемый эталон предоставляет возможность для дальнейших исследований.