Улучшение предобучения языковых моделей с помощью выборки

На каких данных тренировать модели с учетом визуального восприятия?

Для ответа на этот вопрос многие усилия по отбору данных сосредоточены на качестве набора данных. Однако большинство существующих методов имеют два недостатка: (i) они работают офлайн, создавая статический набор данных на основе заранее определенных критериев фильтрации, и (ii) они не учитывают концепты, используя модели фильтров, которые могут ввести дополнительные искажения в данные.

Наша работа

В этой работе мы идем дальше таких офлайн, концепт-агностичных методов и выступаем за более гибкий, адаптивный к задаче онлайн отбор данных на основе концептов. Наша первая заслуга — это DataConcept, коллекция из 128 миллионов пар изображений и текстов, аннотированных с подробной информацией о их концептуальном составе.

На основе DataConcept мы представляем Concept-Aware Batch Sampling (CABS) — простую, но эффективную систему выборки пакетов, которая гибко формирует пакеты в реальном времени на основе конкретных целевых распределений. Мы предлагаем два варианта: (i) Максимизация разнообразия (CABS-DM), чтобы собирать пакеты с широким охватом доступных концептов, и (ii) Максимизация частоты (CABS-FM), чтобы собирать пакеты с высокой множественностью объектов.

Результаты

Через обширные оценки на 28 бенчмарках мы демонстрируем, что наш метод CABS…