Введение
Мультимодальные большие языковые модели (ММЛМ) в настоящее время находятся в центре внимания исследователей. Они демонстрируют быстрый прогресс в масштабе и возможностях, однако их интеллект, ограничения и риски остаются недостаточно понятными.
Цели исследования
Чтобы решить эти проблемы, особенно в контексте русского языка, где в настоящее время отсутствуют мультимодальные эталонные оценки, мы представляем Mera Multi — открытый мультимодальный фреймворк для оценки архитектур, работающих с русским языком.
Характеристика Mera Multi
- Основывается на инструкциях.
- Включает текст, изображения, аудио и видео.
- Содержит 18 новых задач для оценки как универсальных моделей, так и специализированных архитектур (текст из изображений, текст из видео и текст из аудио).
Наши достижения
Ключевые элементы нашего исследования включают:
- Универсальная таксономия мультимодальных способностей;
- 18 наборов данных, созданных с нуля с учетом русской культурной и языковой специфики, унифицированных подсказок и метрик;
- Базовые результаты для закрытых и открытых моделей;
- Методология предотвращения утечек эталонов, включая водяные знаки и лицензии для частных наборов.
Хотя мы сейчас сосредоточены на русском языке, предлагаемый эталон предоставляет возможность для дальнейших исследований.