Dialogue clustering system
Проект: автоматизация аналитики контактного центра - семантическая кластеризация диалогов
Проект с МЦ НТТ
(Ростелеком)
ОПИСАНИЕ

Автоматизация ответов операторов контактного центра предполагает наличие таксономии проблематик, с которыми обращаются клиенты. Такая таксономия позволит провести категоризацию обращений с последующей их обработкой. При сотрудничестве с большим числом контактных центров различной тематики необходима система быстрого анализа корпуса диалогов. Требуется создать инструмент автоматического построения готовых таксономий для корпусов диалогов.

АКТУАЛЬНОСТЬ

Для аналитиков КЦ важно быстро понимать, какой состав тем есть в корпусе диалогов, чтобы быстро проводить автоматизацию работы. Построение такой таксономии полностью вручную - очень трудоёмкая задача, которая требует автоматизации.
Решение команды
  1. Запросили у партнера размеченную выборку синонимичных диалогов, которая помогла сравнить разные модели и настроить её параметры для решения конкретной задачи.
  2. Мы проверили несколько методов решения задачи: различные нейросетевые подходы к поиску парафраз и иерархические мультимодальные тематические модели. Тематические модели показали себя лучше.
  3. Финальное решение было упаковано в Docker-контейнер, реализующий бизнес-логику, необходимую для партнера.
Результаты
- Снижение нагрузки на аналитика
- Снижение времени выявления новых категорий
- Определение новых интентов в потоке обращений
Разрешенные сложности
- Модель, устойчивая к смене тематики
- Устойчивость модели при смене размера текстового корпуса
- Исправление опечаток (в том числе для корпуса с очень специфичной лексикой)
Команда
- Руководитель проекта: Алексей Гончаров
- Team Lead: Артем Попов
- Команда исследователей: Дарья Полюдова, Евгения Веселова, Виктор Булатов
- Научный консультант проекта: Константин Воронцов
Технологический стек
TopicNet, BigARTM, Flask, Python, PyTorch, gensim, UMAP