Введение в Nemotron-Parse-1.1
Мы представляем Nemotron-Parse-1.1 — легкую модель для парсинга документов и оптического распознавания текста (OCR), которая значительно улучшает возможности своего предшественника, Nemoretriever-Parse-1.0.
Основные возможности
- Улучшенное общее качество OCR.
- Поддержка форматирования Markdown.
- Парсинг структурированных таблиц.
- Извлечение текста из изображений, графиков и диаграмм.
- Увеличенная длина выходной последовательности для визуально насыщенных документов.
Как и его предшественник, Nemotron-Parse-1.1 извлекает ограничивающие рамки текстовых сегментов и соответствующие семантические классы.
Архитектура модели
Nemotron-Parse-1.1 основан на архитектуре энкодера-декодера и содержит 885 миллионов параметров, включая компактный декодер языка на 256 миллионов параметров. Модель демонстрирует конкурентоспособную точность на общедоступных бенчмарках, что делает её отличным решением для легкого OCR.
Доступность
Мы публикуем веса модели на Huggingface, а также оптимизированный контейнер NIM и часть обучающих данных в рамках набора данных Nemotron-VLM-v2. Кроме того, мы выпускаем Nemotron-Parse-1.1-TC, который работает с уменьшенной длиной токенов для визуализации, обеспечивая 20% увеличение скорости при минимальном ухудшении качества.