Тематическая кластеризация диалогов

Мотивация запуска проекта заказчиком:
Для аналитиков КЦ важно быстро понимать, какой состав тем есть в корпусе диалогов, чтобы быстро проводить автоматизацию работы. Построение такой таксономии полностью вручную - очень трудоёмкая задача, которая требует автоматизации.

Описание исходной ситуации:
Автоматизация ответов операторов контактного центра предполагает наличие таксономии проблематик, с которыми обращаются клиенты. Такая таксономия позволит провести категоризацию обращений с последующей их обработкой. При сотрудничестве с большим числом контактных центров различной тематики необходима система быстрого анализа корпуса диалогов. Требуется создать инструмент автоматического построения готовых таксономий для корпусов диалогов.

Решение MIL Team:

Запросили у партнера размеченную выборку синонимичных диалогов, которая помогла сравнить разные модели и настроить её параметры для решения конкретной задачи.
Мы проверили несколько методов решения задачи: различные нейросетевые подходы к поиску парафраз и иерархические мультимодальные тематические модели. Тематические модели показали себя лучше.
Финальное решение было упаковано в Docker-контейнер, реализующий бизнес-логику, необходимую для партнера.

Итоги:
- Снижение нагрузки на аналитика
- Снижение времени выявления новых категорий
- Определение новых интентов в потоке обращений

Разрешенные сложности
- Модель, устойчивая к смене тематики
- Устойчивость модели при смене размера текстового корпуса
- Исправление опечаток (в том числе для корпуса с очень специфичной лексикой)

Заказчик: Телеком

Технологический стек: TopicNet, BigARTM, Flask, Python, PyTorch, gensim, UMAP