Поиск оптимального числа тем

Мотивация запуска проекта заказчиком: тематическое моделирование применяется для исследования коллекций текстовых документов, а именно для выявления скрытых тем как вероятностных распределений на множестве слов. Однако, само число тем, как правило, является гиперпараметром тематической модели, то есть должно быть задано исходя из некоторых соображений перед непосредственным обучением модели. То есть тематические модели не способны определять число тем в коллекции. Другой минус тематических моделей кроется в том, что они неполны и неустойчивы. Неполнота означает принципиальную неспособность одной модели найти все темы, которые представлены в тестовой коллекции. Как правило, для полного исследования коллекции требуется обучение нескольких (многих) тематических моделей. Неустойчивость же означает, что результат работы модели может существенно зависеть от некоторых начальных настроек модели или деталей алгоритма обучения модели. Так, на итоговые темы может влиять начальная инициализация модели, выставленное перед обучением число тем, порядок документов при обучении, используемые регуляризаторы и их порядок (в случае обучения ARTM модели).

Описание исходной ситуации:

есть разные тематические модели (PLSA, LDA, ARTM);
тематические модели неустойчивы и неполны;
число тем является гиперпараметром тематической модели;
итоговые темы зависят как от заданного перед обучением числа тем, так и от самой используемой модели;
среди тем, которые выдаёт тематическая модель, могут быть неинтерпретируемые и повторяющиеся темы.

Цели проекта:

исследовать возможность определения оптимального числа тем в коллекции документов по ряду метрик и с использованием ряда подходов, представленных в публикациях. Требуется провести анализ с использованием нескольких общедоступных коллекций текстовых документов и ряда тематических моделей. При этом желательно также, чтобы коллекции документов были различны (либо чтобы документы в разных коллекциях были на разных языках, либо чтобы статьи в разных коллекциях существенно отличались по длине или по стилю языка).
предложить способ исследования коллекций документов с помощью тематических моделей, учитывающий и преодолевающий неполноту и неустойчивость моделей.

Решение MIL Team:

дизайн эксперимента по сравнению подходов для определения оптимального числа тем в коллекции текстовых документов;
подготовка наборов данных для проведения экспериментов;
реализация популярных тематических моделей на базе фреймворков TopicNet и BigARTM;
TopicBank — обёртка над тематическим моделированием, инструмент, учитывающий неполноту и неустойчивость тематических моделей.

Для построения модели были использованы: общедоступные наборы текстовых документов для обучения моделей (коллекция научно-популярных статей с ресурса «ПостНаука», популярные NLP датасеты: Twenty Newsgroups, Reuters и Brown, — хорошие статьи с русской Википедии, коллекция постов с ресурса StackOverflow, WikiRef220).

Результаты моделирования:

несколько наборов данных подготовлены для проведения экспериментов по тематическому моделированию с использованием библиотек TopicNet и BigARTM. Часть датасетов выложены в открытый доступ.
система по анализу коллекций текстовых документов с использованием множественного обучения тематических моделей. Базовая версия системы, с реализованным алгоритмом отбора тем с помощью множественного обучения тематических моделей, выложена в открытый доступ. В другой, закрытой, также реализован пользовательский интерфейс, предоставляющий возможность удобного и быстрого изучения тем вновь обученной тематической модели.

GitHub: https://github.com/machine-intelligence-laboratory/OptimalNumberOfTopics

Заказчик: Акционерное общество «Информационно-аналитический центр», город Нур-Султан, Казахстан

Технологический стек: TopicNet, BigARTM, Python