Технический отчет о HunyuanOCR: новое слово в OCR

Введение в HunyuanOCR

В данном отчете представлена HunyuanOCR — коммерчески готовая, открытая и легковесная модель (1B параметров) для выполнения задач оптического распознавания символов (OCR). Архитектура модели включает в себя Native Vision Transformer (ViT) и легковесную LLM, соединенные через MLP адаптер.

Преимущества HunyuanOCR

HunyuanOCR демонстрирует выдающиеся результаты, превосходя коммерческие API, традиционные потоки обработки и более крупные модели, такие как Qwen3-VL-4B. В частности, она опережает существующие публичные решения в задачах восприятия (распознавание текста, разбор) и успешно справляется с семантическими задачами (информационная извлечение, перевод текста из изображений), заняв первое место в конкурсе ICDAR 2025 DIMT Challenge (категория малых моделей).

Достижения HunyuanOCR

Модель достигает передовых результатов (SOTA) на OCRBench среди VLM с менее чем 3B параметров. HunyuanOCR делает прорывы в трех ключевых аспектах:

  • Унификация универсальности и эффективности: Мы обеспечиваем полную поддержку основных функций, включая распознавание, разбор, информационное извлечение (IE), ответ на вопросы (VQA) и перевод в рамках легковесной структуры. Это позволяет преодолеть ограничения узкоспециализированных «экспертных моделей OCR» и неэффективных «общих VLM».
  • Оптимизированная архитектура End-to-End: Применение чистой end-to-end парадигмы устраняет зависимости от предобработки, что упрощает процесс.