TopicNet
Open-source проект для автоматизированного мультимодального иерархического тематического моделирования
  • Сценарии обучения
    Реализованы воспроизводимые сценарии обучения. Каждый может найти наиболее подходящий для своей задачи сценарий и быстро реализовать первую тематическую модель
    1
  • Сбалансированные модели
    Решена проблема построения тематических моделей на несбалансированных выборках. Представлен регуляризатор, позволяющий улучшить тематические модели при тренировке на таких коллекциях
    2
  • Логирование экспериментов
    Удобный инструмент логирования и воспроизведения экспериментов позволит сохранить наиболее ценную информацию и воспользоваться ей для выбора лучших моделей
    3
  • Прототип "из коробки"
    В несколько строчек кода можно реализовать первую модель на собственных данных. Мы снизили порог входа в область тематического моделирования и упростили использование библиотеки
    4
  • Поддержка пользовательских метрик
    Пользователи могут сами создавать метрики под решаемые задачи. Поддерживается логирование метрик тренировки во время обучения модели
    5
  • Просмотр результатов
    Мы добавили новый функционал просмотра информации о построенной модели. Теперь можно в несколько шагов провести интерпретацию результата и проанализировать возникшие ошибки
    6
Подойдет как разработчику, так и профессиональному исследователю
TopicNet- это библиотека автоматизированного тематического моделирования.

С одной стороны, библиотека содержит функционал, необходимый разработчику: автоматизированный pipeline построения модели, возможность работы с несбалансированными данными и подбор оптимального числа тем - все это позволит использовать функционал библиотеки «из коробки».

С другой стороны, библиотека содержит функционал для исследователя: можно использовать сложные сценарии обучения и подготовки моделей, встраивать собственные критерии качества для обучения моделей и собственные регуляризаторы как этапы обучения модели. Логирование экспериментов и интуитивный просмотр результатов моделирования делают библиотеку наиболее удобным инструментом для построения тематических моделей.
80%
Доля интерпретируемых тем
При помощи оптимальных и подготовленных сценариев обучения можно получать прирост в доле интерпретируемых тем "из коробки"
40%
Сокращение времени разработки
Большой набор инструментов оптимизации позволяют сконцентрироваться на подборе оптимальной модели и сократить время разработки
Прикладные задачи
Которые решает тематическое моделирование
  • Разведочный поиск по закрытой коллекции
    Тематические модели позволяют быстро восстановить структуру коллекции и построить интерпретируемое векторное представление каждого документа, сузив область для поиска по запросу.
    01
  • Таксономия текстовой коллекции
    Понимание структуры коллекции необходимо для последующего проведения автоматизации обработки обращений. Модели представления информации о коллекции позволят быстро понять содержание коллекции диалогов.
    02
  • Сегментация и профилирование клиентов
    Анализ данных о действиях пользователя для выделения интерпретируемых моделей поведения возможно реализовать при помощи механизма матричного разложения.
    03
  • Анализ динамики новостного потока
    Темпоральные тематические модели позволяют следить за динамикой развития темы в коллекции. А автоматизированное выделение иерархически связанных тем позволяет понять структуру новостной коллекции.
    04