Success Story - rus

Распознавание аудиозаписей медицинского центра

Описание проекта:
Перед командой MIL Team стояла задача по разработке решения для автоматической обработки и анализа большого объёма архивов медицинских аудиозаписей из различных каналов взаимодействия с пациентами:
  • Контактный центр — звонки пациентов с целью записи на приём;
  • Телемедицина — дистанционные консультации между врачём и пациентом;
  • Офлайн-приёмы — записи разговоров врача и пациента во время очного визита.

Цель проекта заключалась в том, чтобы получить из неструктурированных аудиоданных структурированную текстовую информацию, пригодную для:
  • аналитики и контроля качества консультаций;
  • автоматического формирования медицинской документации;
  • повышения эффективности внутренних процессов.

Задача осложнялась рядом факторов:
  • различное качество записей и форматов аудиофайлов;
  • наличие медицинской терминологии и речевых ошибок;
  • отсутствие явной разметки участников диалога (врач/пациент);

MIL Team предстояло построить решение, которое обеспечит точную транскрибацию, очистку текста, извлечение ключевых сущностей и подготовку результатов в удобном для заказчика виде.

Решение:
Для решения задачи команда MIL Team разработала систему с фокусом на точность распознавания речи (с учётом медицинского контекста) и удобством интеграции в существующую инфраструктуру заказчика. Архитектура решения полностью развёрнута во внутреннем контуре заказчика без подключения к каким-либо внешним сервисам и включает в себя следующие ключевые этапы:

  • Распознавание речи:

ASR-модель, обеспечивающая транскрибацию аудиофайлов в текстовый формат данных. Благодаря дообучению модели на медицинских данных достигнута высокая точность распознавания сложных медицинских терминов и профессиональной лексики.

  • Диаризация:

Автоматическое определение границ речи каждого спикера – разделение реплик врача/оператора и пациента.

  • Постобработка транскрибированного текста:

Результаты транскрибации подвергались дополнительной обработке с помощью внедрения LLM-модели, которая устраняла орфографические ошибки, корректировала распознавание сокращений и медицинских терминов, а также восстанавливала знаки препинания. Это обеспечивало читаемость и стилистическую однородность текстов.

  • Выделение ключевых сущностей (NER):

К обработанному тексту применялись NER-модели, обученные отдельно под каждый тип данных — контактный центр, телемедицина и офлайн-прием. Для каждого типа взаимодействия определялся собственный набор сущностей. Например, для телемедицины извлекались поля: «Жалобы», «Диагноз», «Анамнез», «Обследования», «Дополнительные сведения» и «Рекомендации»

Инфраструктура и интерфейс:
Микросервисный бэкенд: все модули объединены в единый пайплайн, обёрнутый в микросервис, легко разворачиваемый во внутреннем контуре заказчика.

Фронт-энд интерфейс: разработан простой интерфейс, через который пользователь может загрузить архив аудиозаписей и получить на выходе:
  • точную текстовую расшифровку аудиофайла;
  • структурированный JSON-файл с выделенными сущностями.

Итоги:
Разработанное решение прошло независимое внутреннее тестирование на стороне заказчика и было сравнено с аналогичными решениями от других вендоров. По итогам оценки система, созданная MIL Team, продемонстрировала значительное превосходство по качеству распознавания и извлечения информации, полностью соответствуя ожиданиям и требованиям заказчика.

Ключевые метрики качества решения от MIL Team составили:
  • Exact Match по сложным медицинским терминам – 85+%;
  • Exact Match по простым терминам – 95+%.
Engineering Audio