Мультиязычная тематическая модель

Мотивация запуска проекта заказчиком: заказчику требовалось добавить новый функционал в собственный продукт - возможность искать перевод научной статьи среди самых распространённых языков.

Описание исходной ситуации:

подобного функционала для поиска переводов научных статей у Антиплагиата не было, была потребность в добавлении нового функционала.

Цели проекта:

построить тематическую модель, которая может быть использована для решения двух задач с высоким уровнем качества: задачи семантического поиска перевода научных статей, а также задачи классификации научных статей относительно научных рубрик.

Решение MIL Team: опыт команды в области тематического моделирования и микросервисной архитектуры позволил создать сервис для поиска переводов научных статей и определения научных рубрик статей, который может быть запущен в виртуальной машине.

Для построения модели были использованы:

Параллельный корпус научных статей с сайта elibrary;
Параллельный корпус статей википедии на 100 языках;
Метки принадлежности научным рубрикам разных рубрикаторов (УДК, OECD).

Результаты моделирования:

Тематическая модель научных рубрик;
Виртуальная машина, на которой может быть запущена модель.

Заказчик: Антиплагиат

Технологический стек: grpc, Python, sklearn, BigARTM