Success Story - rus

Мультиязычная тематическая модель

Мотивация запуска проекта заказчиком: заказчику требовалось добавить новый функционал в собственный продукт - возможность искать перевод научной статьи среди самых распространённых языков.

Описание исходной ситуации:
  • подобного функционала для поиска переводов научных статей у Антиплагиата не было, была потребность в добавлении нового функционала.

Цели проекта:
  • построить тематическую модель, которая может быть использована для решения двух задач с высоким уровнем качества: задачи семантического поиска перевода научных статей, а также задачи классификации научных статей относительно научных рубрик.

Решение MIL Team: опыт команды в области тематического моделирования и микросервисной архитектуры позволил создать сервис для поиска переводов научных статей и определения научных рубрик статей, который может быть запущен в виртуальной машине.

Для построения модели были использованы:
  • Параллельный корпус научных статей с сайта elibrary;
  • Параллельный корпус статей википедии на 100 языках;
  • Метки принадлежности научным рубрикам разных рубрикаторов (УДК, OECD).

Результаты моделирования:
  • Тематическая модель научных рубрик;
  • Виртуальная машина, на которой может быть запущена модель.

Заказчик: Антиплагиат

Технологический стек: grpc, Python, sklearn, BigARTM


NLP Research