Описание исходной ситуации:
- есть разные тематические модели (PLSA, LDA, ARTM);
- тематические модели неустойчивы и неполны;
- число тем является гиперпараметром тематической модели;
- итоговые темы зависят как от заданного перед обучением числа тем, так и от самой используемой модели;
- среди тем, которые выдаёт тематическая модель, могут быть неинтерпретируемые и повторяющиеся темы.
Цели проекта:
- исследовать возможность определения оптимального числа тем в коллекции документов по ряду метрик и с использованием ряда подходов, представленных в публикациях. Требуется провести анализ с использованием нескольких общедоступных коллекций текстовых документов и ряда тематических моделей. При этом желательно также, чтобы коллекции документов были различны (либо чтобы документы в разных коллекциях были на разных языках, либо чтобы статьи в разных коллекциях существенно отличались по длине или по стилю языка).
- предложить способ исследования коллекций документов с помощью тематических моделей, учитывающий и преодолевающий неполноту и неустойчивость моделей.
Решение MIL Team:
- дизайн эксперимента по сравнению подходов для определения оптимального числа тем в коллекции текстовых документов;
- подготовка наборов данных для проведения экспериментов;
- реализация популярных тематических моделей на базе фреймворков TopicNet и BigARTM;
- TopicBank — обёртка над тематическим моделированием, инструмент, учитывающий неполноту и неустойчивость тематических моделей.
Для построения модели были использованы: общедоступные наборы текстовых документов для обучения моделей (коллекция научно-популярных статей с ресурса «ПостНаука», популярные NLP датасеты: Twenty Newsgroups, Reuters и Brown, — хорошие статьи с русской Википедии, коллекция постов с ресурса StackOverflow, WikiRef220).
Результаты моделирования:
- несколько наборов данных подготовлены для проведения экспериментов по тематическому моделированию с использованием библиотек TopicNet и BigARTM. Часть датасетов выложены в открытый доступ.
- система по анализу коллекций текстовых документов с использованием множественного обучения тематических моделей. Базовая версия системы, с реализованным алгоритмом отбора тем с помощью множественного обучения тематических моделей, выложена в открытый доступ. В другой, закрытой, также реализован пользовательский интерфейс, предоставляющий возможность удобного и быстрого изучения тем вновь обученной тематической модели.
Заказчик: Акционерное общество «Информационно-аналитический центр», город Нур-Султан, Казахстан
Технологический стек: TopicNet, BigARTM, Python