Описание исходной ситуации:
- имеется набор открытых решений для задачи OCR;
- предоставлен набор документов и презентаций, на которых требуется распознать текст.
Для полноценного сравнения end2end OCR системы терубется разметка на документах не только текстового содержания но и bounding box-ы. отсюда и сложность: вручную разметить сотни текстовых документов с разметкой bounding боксов и текста времязатратно.
Цели проекта:
- создать инструментарий для определения лучшего решения и границ его применимости.
Решение MIL Team: создан набор инструментов для тестирования решений TD+OCR и эффективного создания датасетов, состоящих из документов в “естественной” среде. С помощью этих инструментов командой из 2х человек в течении двух недель был создан датасет из 1000 изображений с выделением боксов отдельных слов на странице (можно посчитать человеко-часы на n страниц). Инструменты позволяют выделить изображения, на которых решения показывают низкую точность, и атрибутировать к параметрам изображения (поворот листа, освещение, тени, цветные текст и его фон) те или иные ошибки в работе алгоритмов.
Для построения модели были использованы:
- Переданный заказчиком датасет электронных документов в формате pdf;
- Решения для задачи TD+OCR в открытом доступе (Tesseract, EasyOCR).
Результаты моделирования:
- Инструментарий тестирования TD+OCR решений;
- Пять датасетов разной “сложности” из фотографий и сканов документов и презентаций.
Для сравнении были реализованы следующие метрики Word Accuracy, per-word Levenstein distance, F1-score (IOU based) for box matching. Основное сравнение проводилось между моделями Tesseract, EasyOCR и нашей внутренней OCR моделью idog. Согласно результатам, Tesseract наиболее эффективно использовать для хорошо читаемых, выровненных документах, в противном случае EasyOCR и idog показывают лучшие результаты и в плане детектирования боксов слов и в плане финального качества распознавания символов.
Заказчик: ИСП РАН
Технологический стек: Python, OpenCV, Labelme

