Сравнение качества OCR

Мотивация запуска проекта заказчиком: потребность заказчика в обработке больших объемов документов выявила следующие недостатки: большинство доступных открытых решений работают слишком медленно. Кроме того, не определен набор сценариев, при которых решение перестает выдавать приемлемое качество распознавания текста на документе.

Описание исходной ситуации:

имеется набор открытых решений для задачи OCR;
предоставлен набор документов и презентаций, на которых требуется распознать текст.

Для полноценного сравнения end2end OCR системы терубется разметка на документах не только текстового содержания но и bounding box-ы. отсюда и сложность: вручную разметить сотни текстовых документов с разметкой bounding боксов и текста времязатратно.

Цели проекта:

создать инструментарий для определения лучшего решения и границ его применимости.

Решение MIL Team: создан набор инструментов для тестирования решений TD+OCR и эффективного создания датасетов, состоящих из документов в “естественной” среде. С помощью этих инструментов командой из 2х человек в течении двух недель был создан датасет из 1000 изображений с выделением боксов отдельных слов на странице (можно посчитать человеко-часы на n страниц). Инструменты позволяют выделить изображения, на которых решения показывают низкую точность, и атрибутировать к параметрам изображения (поворот листа, освещение, тени, цветные текст и его фон) те или иные ошибки в работе алгоритмов.

Для построения модели были использованы:

Переданный заказчиком датасет электронных документов в формате pdf;
Решения для задачи TD+OCR в открытом доступе (Tesseract, EasyOCR).

Результаты моделирования:

Инструментарий тестирования TD+OCR решений;
Пять датасетов разной “сложности” из фотографий и сканов документов и презентаций.

Для сравнении были реализованы следующие метрики Word Accuracy, per-word Levenstein distance, F1-score (IOU based) for box matching. Основное сравнение проводилось между моделями Tesseract, EasyOCR и нашей внутренней OCR моделью idog. Согласно результатам, Tesseract наиболее эффективно использовать для хорошо читаемых, выровненных документах, в противном случае EasyOCR и idog показывают лучшие результаты и в плане детектирования боксов слов и в плане финального качества распознавания символов.

Заказчик: ИСП РАН

Технологический стек: Python, OpenCV, Labelme