Мотивация запуска проекта заказчиком: заказчику требовалосьдобавить новый функционал в собственный продукт - возможность искать перевод научной статьи среди самых распространённых языков.
Описание исходной ситуации:
подобного функционала для поиска переводов научных статей у Антиплагиата не было, была потребность в добавлении нового функционала.
Цели проекта:
построить тематическую модель, которая может быть использована для решения двух задач с высоким уровнем качества: задачи семантического поиска перевода научных статей, а также задачи классификации научных статей относительно научных рубрик.
Решение MIL Team: опыт команды в области тематического моделирования и микросервисной архитектуры позволил создать сервис для поиска переводов научных статей и определения научных рубрик статей, который может быть запущен в виртуальной машине.
Для построения модели были использованы:
Параллельный корпус научных статей с сайта elibrary;
Параллельный корпус статей википедии на 100 языках;
Метки принадлежности научным рубрикам разных рубрикаторов (УДК, OECD).
Результаты моделирования:
Тематическая модель научных рубрик;
Виртуальная машина, на которой может быть запущена модель.