Мультимодальная оценка архитектур для русского языка

Введение

Мультимодальные большие языковые модели (ММЛМ) в настоящее время находятся в центре внимания исследователей. Они демонстрируют быстрый прогресс в масштабе и возможностях, однако их интеллект, ограничения и риски остаются недостаточно понятными.

Цели исследования

Чтобы решить эти проблемы, особенно в контексте русского языка, где в настоящее время отсутствуют мультимодальные эталонные оценки, мы представляем Mera Multi — открытый мультимодальный фреймворк для оценки архитектур, работающих с русским языком.

Характеристика Mera Multi

  • Основывается на инструкциях.
  • Включает текст, изображения, аудио и видео.
  • Содержит 18 новых задач для оценки как универсальных моделей, так и специализированных архитектур (текст из изображений, текст из видео и текст из аудио).

Наши достижения

Ключевые элементы нашего исследования включают:

  1. Универсальная таксономия мультимодальных способностей;
  2. 18 наборов данных, созданных с нуля с учетом русской культурной и языковой специфики, унифицированных подсказок и метрик;
  3. Базовые результаты для закрытых и открытых моделей;
  4. Методология предотвращения утечек эталонов, включая водяные знаки и лицензии для частных наборов.

Хотя мы сейчас сосредоточены на русском языке, предлагаемый эталон предоставляет возможность для дальнейших исследований.