Мотивация запуска проекта заказчиком: Для аналитиков КЦ важно быстро понимать, какой состав тем есть в корпусе диалогов, чтобы быстро проводить автоматизацию работы. Построение такой таксономии полностью вручную - очень трудоёмкая задача, которая требует автоматизации.
Описание исходной ситуации: Автоматизация ответов операторов контактного центра предполагает наличие таксономии проблематик, с которыми обращаются клиенты. Такая таксономия позволит провести категоризацию обращений с последующей их обработкой. При сотрудничестве с большим числом контактных центров различной тематики необходима система быстрого анализа корпуса диалогов. Требуется создать инструмент автоматического построения готовых таксономий для корпусов диалогов.
Решение MIL Team:
Запросили у партнера размеченную выборку синонимичных диалогов, которая помогла сравнить разные модели и настроить её параметры для решения конкретной задачи.
Мы проверили несколько методов решения задачи: различные нейросетевые подходы к поиску парафраз и иерархические мультимодальные тематические модели. Тематические модели показали себя лучше.
Финальное решение было упаковано в Docker-контейнер, реализующий бизнес-логику, необходимую для партнера.
Итоги: - Снижение нагрузки на аналитика - Снижение времени выявления новых категорий - Определение новых интентов в потоке обращений
Разрешенные сложности - Модель, устойчивая к смене тематики - Устойчивость модели при смене размера текстового корпуса - Исправление опечаток (в том числе для корпуса с очень специфичной лексикой)