Zero-Shot распознавание изображений

Описание:
В настоящее время нейронные сети показывают высокое качество в большинстве задач распознавания образов. Одной из проблем нейронных сетей является требование к наличию большого количества размеченных данных для обучения. Для большинства задач используется разметка, которая ограничивает набор сущностей, распознаваемых нейронной сетью. В то же время, в сети интернет содержатся большие объемы слабо структурированной информации об изображениях, которые выкладывают пользователи. Эта информация выражается в парах изображений и текстовых описаний. Создание мультимодальных моделей, т.е. выполняющих совместную обработку данных из различных доменов, позволяет использовать такие неподготовленные данные для решения задач распознавания изображений.

Нашей задачей было исследование существующих мультимодальных подходов к решению различных задач компьютерного зрения (multi-class/multi-label classification, semantic segmentation, object detection), их улучшение а также разработка новых подходов, использующих внешние знания (LLM, семантические сети и др.) для улучшения точности и обобщающей способности разработанных подходов.

Решение:
В рамках проекта было реализовано и протестировано более 20 различных zero-shot моделей для решения задач multi-class/multi-label classification, semantic segmentation и object detection. Был проведен сравнительный анализ этих моделей, выявлены достоинства и недостатки различных подходов. Для выявленных слабых сторон существующих подходов были предложены и протестированы подходы, улучшающие качество. Предложенные модификации для моделей MaskCLIP и Zero-shot MaskFormer позволяют получить SOTA качество для задачи zero-shot семантической сегментации.

Другим направлением проекта было исследование возможности использования внешних знаний, таких как LLM или семантические сети для улучшения качества предсказаний zero-shot подходов. Исследовалась как возможность использования таких знаний на этапе инференса моделей, так и при обучении. Результатом исследований является разработка подхода, позволяющего увеличить качество решения задач за счет увеличения разнообразия обучающей выборки. Наибольший прирост качества был продемонстрирован при работе с данными, содержащими детальную информацию об объектах на изображении (цвет, количество, свойства), что является сложным случаем для подобных методов.

Также в процессе решения проекта были выявлены недостатки существующих подходов к оценке качества моделей при наличие открытого набора классов, для которых осуществляется предсказание. Классические метрики, такие как accuracy, precision или recall считают предсказание модели ошибочным, если не происходит полного совпадения с классом объекта в датасете. Для моделей, работающих с открытым набором классов данное утверждение является некоррктным, так как модель может предсказывать синонимы, гипернимы или гипонемы для истинной метки, что с точки зрения классических метрик является ошибкой. Для решения проблемы оценки качества моделей был разработан подход, использующий семантические сети с заданной иерархией классов и Марковские случайные поля (Markov random fields).

Результаты:
- SOTA модель для решения задачи семантической сегментации в режиме annotation-free (не требует обучения на датасетах для сегментации) и zero-shot
- Подход к оценке качества zero-shot моделей, учитывающий возможность модели работать на открытом наборе классов
- Методы fine-tuning для CLIP-like моделей с использованием внешних знаний для улучшения качества распознавания объектов и их характеристик на сложных сценах

Технологический стек:
Python, PyTorch, Transformers