Для аналитиков КЦ важно быстро понимать, какой состав тем есть в корпусе диалогов, чтобы быстро проводить автоматизацию работы. Построение такой таксономии полностью вручную - очень трудоёмкая задача, которая требует автоматизации.
Описание исходной ситуации:
Автоматизация ответов операторов контактного центра предполагает наличие таксономии проблематик, с которыми обращаются клиенты. Такая таксономия позволит провести категоризацию обращений с последующей их обработкой. При сотрудничестве с большим числом контактных центров различной тематики необходима система быстрого анализа корпуса диалогов. Требуется создать инструмент автоматического построения готовых таксономий для корпусов диалогов.
Решение MIL Team:
- Запросили у партнера размеченную выборку синонимичных диалогов, которая помогла сравнить разные модели и настроить её параметры для решения конкретной задачи.
- Мы проверили несколько методов решения задачи: различные нейросетевые подходы к поиску парафраз и иерархические мультимодальные тематические модели. Тематические модели показали себя лучше.
- Финальное решение было упаковано в Docker-контейнер, реализующий бизнес-логику, необходимую для партнера.
Итоги:
- Снижение нагрузки на аналитика
- Снижение времени выявления новых категорий
- Определение новых интентов в потоке обращений
Разрешенные сложности
- Модель, устойчивая к смене тематики
- Устойчивость модели при смене размера текстового корпуса
- Исправление опечаток (в том числе для корпуса с очень специфичной лексикой)
Заказчик: Телеком
Технологический стек: TopicNet, BigARTM, Flask, Python, PyTorch, gensim, UMAP