Введение в HunyuanOCR
В данном отчете представлена HunyuanOCR — коммерчески готовая, открытая и легковесная модель (1B параметров) для выполнения задач оптического распознавания символов (OCR). Архитектура модели включает в себя Native Vision Transformer (ViT) и легковесную LLM, соединенные через MLP адаптер.
Преимущества HunyuanOCR
HunyuanOCR демонстрирует выдающиеся результаты, превосходя коммерческие API, традиционные потоки обработки и более крупные модели, такие как Qwen3-VL-4B. В частности, она опережает существующие публичные решения в задачах восприятия (распознавание текста, разбор) и успешно справляется с семантическими задачами (информационная извлечение, перевод текста из изображений), заняв первое место в конкурсе ICDAR 2025 DIMT Challenge (категория малых моделей).
Достижения HunyuanOCR
Модель достигает передовых результатов (SOTA) на OCRBench среди VLM с менее чем 3B параметров. HunyuanOCR делает прорывы в трех ключевых аспектах:
- Унификация универсальности и эффективности: Мы обеспечиваем полную поддержку основных функций, включая распознавание, разбор, информационное извлечение (IE), ответ на вопросы (VQA) и перевод в рамках легковесной структуры. Это позволяет преодолеть ограничения узкоспециализированных «экспертных моделей OCR» и неэффективных «общих VLM».
- Оптимизированная архитектура End-to-End: Применение чистой end-to-end парадигмы устраняет зависимости от предобработки, что упрощает процесс.
Интересно, что HunyuanOCR не только легковесная модель, но и показывает результаты, превосходящие коммерческие решения. Это действительно может изменить подход к обработке текстов в разных сферах. Есть ли уже планы по дальнейшему развитию этой технологии или внедрению в реальные проекты?