Распознавание аудиозаписей медицинского центра

Описание проекта:
Перед командой MIL Team стояла задача по разработке решения для автоматической обработки и анализа большого объёма архивов медицинских аудиозаписей из различных каналов взаимодействия с пациентами:

Контактный центр — звонки пациентов с целью записи на приём;
Телемедицина — дистанционные консультации между врачём и пациентом;
Офлайн-приёмы — записи разговоров врача и пациента во время очного визита.

Цель проекта заключалась в том, чтобы получить из неструктурированных аудиоданных структурированную текстовую информацию, пригодную для:

аналитики и контроля качества консультаций;
автоматического формирования медицинской документации;
повышения эффективности внутренних процессов.

Задача осложнялась рядом факторов:

различное качество записей и форматов аудиофайлов;
наличие медицинской терминологии и речевых ошибок;
отсутствие явной разметки участников диалога (врач/пациент);

MIL Team предстояло построить решение, которое обеспечит точную транскрибацию, очистку текста, извлечение ключевых сущностей и подготовку результатов в удобном для заказчика виде.

Решение:
Для решения задачи команда MIL Team разработала систему с фокусом на точность распознавания речи (с учётом медицинского контекста) и удобством интеграции в существующую инфраструктуру заказчика. Архитектура решения полностью развёрнута во внутреннем контуре заказчика без подключения к каким-либо внешним сервисам и включает в себя следующие ключевые этапы:

Распознавание речи:

ASR-модель, обеспечивающая транскрибацию аудиофайлов в текстовый формат данных. Благодаря дообучению модели на медицинских данных достигнута высокая точность распознавания сложных медицинских терминов и профессиональной лексики.

Диаризация:

Автоматическое определение границ речи каждого спикера – разделение реплик врача/оператора и пациента.

Постобработка транскрибированного текста:

Результаты транскрибации подвергались дополнительной обработке с помощью внедрения LLM-модели, которая устраняла орфографические ошибки, корректировала распознавание сокращений и медицинских терминов, а также восстанавливала знаки препинания. Это обеспечивало читаемость и стилистическую однородность текстов.

Выделение ключевых сущностей (NER):

К обработанному тексту применялись NER-модели, обученные отдельно под каждый тип данных — контактный центр, телемедицина и офлайн-прием. Для каждого типа взаимодействия определялся собственный набор сущностей. Например, для телемедицины извлекались поля: «Жалобы», «Диагноз», «Анамнез», «Обследования», «Дополнительные сведения» и «Рекомендации»

Инфраструктура и интерфейс:
Микросервисный бэкенд: все модули объединены в единый пайплайн, обёрнутый в микросервис, легко разворачиваемый во внутреннем контуре заказчика.

Фронт-энд интерфейс: разработан простой интерфейс, через который пользователь может загрузить архив аудиозаписей и получить на выходе:

точную текстовую расшифровку аудиофайла;
структурированный JSON-файл с выделенными сущностями.

Итоги:
Разработанное решение прошло независимое внутреннее тестирование на стороне заказчика и было сравнено с аналогичными решениями от других вендоров. По итогам оценки система, созданная MIL Team, продемонстрировала значительное превосходство по качеству распознавания и извлечения информации, полностью соответствуя ожиданиям и требованиям заказчика.

Ключевые метрики качества решения от MIL Team составили:

Exact Match по сложным медицинским терминам – 85+%;
Exact Match по простым терминам – 95+%.