Описание исходной ситуации:
- имеется набор открытых решений для задачи OCR;
- предоставлен набор документов и презентаций, на которых требуется распознать текст.
Цели проекта:
- создать инструментарий для определения лучшего решения и границ его применимости.
Решение MIL Team: создан набор инструментов для тестирования решений TD+OCR и эффективного создания датасетов, состоящих из документов в “естественной” среде. С помощью этих инструментов командой из 2х человек в течении двух недель был создан датасет из 1000 изображений с выделением боксов отдельных слов на странице (можно посчитать человеко-часы на n страниц). Инструменты позволяют выделить изображения, на которых решения показывают низкую точность, и атрибутировать к параметрам изображения (поворот листа, освещение, тени, цветные текст и его фон) те или иные ошибки в работе алгоритмов.
Для построения модели были использованы:
- Переданный заказчиком датасет электронных документов в формате pdf;
- Решения для задачи TD+OCR в открытом доступе (Tesseract, EasyOCR).
Результаты моделирования:
- Инструментарий тестирования TD+OCR решений;
- Пять датасетов разной “сложности” из фотографий и сканов документов и презентаций.
Заказчик: ИСП РАН
Технологический стек: Python, OpenCV, Labelme