Success Story - rus

Создание модели тематической сегментации текстов

Цели проекта:
Целями проекта были изучение существующих методов сегментации текстов, реализацию бейзлайнов на основе методов без обучения моделей и с тематическим моделированием на корпусе документов, разработка и апробация методов генеративной суммаризации для сегментации диалогов, выбор подходящих датасетов для сравнения, исследование применимости этих подходов к русскоязычным данным, а также подготовка научной публикации.

Решение MIL Team:
Разработан алгоритм сегментации на основе нейросетевой суммаризации, названный SumSeg, который включает в себя генерацию резюме документа, извлечение простых предложений, получение эмбеддингов и применение алгоритма TextTiling.

Для построения модели были использованы:
Использовались различные модели генеративной суммаризации, в том числе BART, FLAN-T5 и LED для англоязычных диалогов, и mBART, ruT5, ruGPT3 для русскоязычных, а также популярные наборы диалоговых данных, такие как SuperDialSeg, TIAGE, QMSum и внутренние данные заказчика. Для тематического моделирования в бейзлайнах использованы BERTopic и BigARTM. Дополнительно проверены модели ChatGPT3.5 и ChatGPT4.

Результаты моделирования:
  1. Исследованы большинство доступных датасетов (имеются парсеры для Wiki727k, AMI, SuperDialSeg, DialSeg711, Doc2Dial, TIAGE, QMSum), выбраны наиболее популярные диалоговые данные (SuperDialSeg, TIAGE, QMSum), использованы русскоязычные диалоги (Sber) на банковскую и образовательную тематики.
  2. Реализованы наиболее популярные и качественные бейзлайны для сравнения (BERTSeg, TextTiling+BigARTM) в формате библиотеки в модульном виде, для полноты добавлены актуальные методы на основе нейросетевого тематического моделирования (TextTiling+BERTopic). Кроме того, показаны методы на основе LLM в виде семейста моделей ChatGPT.
  3. Предложен и исследован научно новый подход (SumSeg) к сегментации на основе генеративного резюмирования, обходящий большинство имеющихся методов по метрикам сегментации. Подход работает на любых диалоговых данных, лучше всего подходит для транскрибированных, то есть высоко зашумленных данных (QMSum), а также может быть применен для текстов любой длины за счет предложенного подхода к чанкированию.
  4. Результаты исследования зафиксированы в научно-исследовательской статье Leveraging summarization for unsupervised topic segmentation of long dialogues, отправленной на конференцию EACL 2024 (core A), в ходе дискуссии рецензентам результаты были дополнены новыми актуальными бейзлайнами (CohereSeg, DialSTART, HyperSeg).
  5. Исследованы несколько моделей резюмирования на английском и русском языках, среди которых качественно выделились BART-samsum, ruGPT3 и mBART.
  6. Приведены границы применимости алгоритмов в виде таблицы с выводами по внутренним данным.

Заказчик:
Результаты проекта могут быть применены для работы с внутренними данными различных организаций, включая диалоговые датасеты в банковской области.

Технологический стек:
Использовались различные инструменты для обработки текста и анализа данных, включая NLTK, spaCy, а также алгоритмы и методы машинного обучения, такие как косинусная близость и фильтр Савицкого-Голея.
Research