Описание исходной ситуации:
- подобного функционала для поиска переводов научных статей у Антиплагиата не было, была потребность в добавлении нового функционала.
Цели проекта:
- построить тематическую модель, которая может быть использована для решения двух задач с высоким уровнем качества: задачи семантического поиска перевода научных статей, а также задачи классификации научных статей относительно научных рубрик.
Решение MIL Team: опыт команды в области тематического моделирования и микросервисной архитектуры позволил создать сервис для поиска переводов научных статей и определения научных рубрик статей, который может быть запущен в виртуальной машине.
Для построения модели были использованы:
- Параллельный корпус научных статей с сайта elibrary;
- Параллельный корпус статей википедии на 100 языках;
- Метки принадлежности научным рубрикам разных рубрикаторов (УДК, OECD).
Результаты моделирования:
- Тематическая модель научных рубрик;
- Виртуальная машина, на которой может быть запущена модель.
Заказчик: Антиплагиат
Технологический стек: grpc, Python, sklearn, BigARTM