AICC: Улучшение извлечения HTML для AI с помощью MinerU-HTML

Введение

Качество веб-данных имеет ключевое значение для больших языковых моделей. Однако большинство усилий по курированию данных сосредоточено на фильтрации и удалении дубликатов, рассматривая извлечение текста из HTML как фиксированный этап предварительной обработки.

Проблемы с существующими методами

Существующие веб-корпусы полагаются на экстракторы, такие как Trafilatura, которые используют эвристические методы. Эти методы часто не сохраняют структуру документа и могут повреждать структурированные элементы, такие как формулы, коды и таблицы.

Гипотеза

Мы предполагаем, что улучшение качества извлечения может оказать такое же влияние на производительность, как и агрессивные стратегии фильтрации.

Представляем MinerU-HTML

Мы представляем MinerU-HTML – новую систему извлечения, которая переосмысляет извлечение контента как задачу маркировки последовательностей, решаемую языковой моделью с 0.6 миллиарда параметров.

Преимущества MinerU-HTML

  • В отличие от эвристических методов, MinerU-HTML использует семантическое понимание.
  • Система состоит из двух этапов формата, которые явно категоризируют семантические элементы перед преобразованием в Markdown.
  • Подход на основе модели обеспечивает масштабируемость, в отличие от ограниченных возможностей эвристических методов.

Результаты

На нашем бенчмарке MainWebBench, который включает 7,887 аннотированных веб-страниц, MinerU-HTML достиг 81.8% ROUGE-N F1, в то время как Trafilatura показал лишь 63.6%. Это также обеспечило исключительное сохранение структурированных элементов (90.9% для…).