Введение
Качество веб-данных имеет ключевое значение для больших языковых моделей. Однако большинство усилий по курированию данных сосредоточено на фильтрации и удалении дубликатов, рассматривая извлечение текста из HTML как фиксированный этап предварительной обработки.
Проблемы с существующими методами
Существующие веб-корпусы полагаются на экстракторы, такие как Trafilatura, которые используют эвристические методы. Эти методы часто не сохраняют структуру документа и могут повреждать структурированные элементы, такие как формулы, коды и таблицы.
Гипотеза
Мы предполагаем, что улучшение качества извлечения может оказать такое же влияние на производительность, как и агрессивные стратегии фильтрации.
Представляем MinerU-HTML
Мы представляем MinerU-HTML – новую систему извлечения, которая переосмысляет извлечение контента как задачу маркировки последовательностей, решаемую языковой моделью с 0.6 миллиарда параметров.
Преимущества MinerU-HTML
- В отличие от эвристических методов, MinerU-HTML использует семантическое понимание.
- Система состоит из двух этапов формата, которые явно категоризируют семантические элементы перед преобразованием в Markdown.
- Подход на основе модели обеспечивает масштабируемость, в отличие от ограниченных возможностей эвристических методов.
Результаты
На нашем бенчмарке MainWebBench, который включает 7,887 аннотированных веб-страниц, MinerU-HTML достиг 81.8% ROUGE-N F1, в то время как Trafilatura показал лишь 63.6%. Это также обеспечило исключительное сохранение структурированных элементов (90.9% для…).