Описание проекта:
Перед командой MIL Team стояла задача по разработке решения для автоматической обработки и анализа большого объёма архивов медицинских аудиозаписей из различных каналов взаимодействия с пациентами:
Цель проекта заключалась в том, чтобы получить из неструктурированных аудиоданных структурированную текстовую информацию, пригодную для:
Задача осложнялась рядом факторов:
MIL Team предстояло построить решение, которое обеспечит точную транскрибацию, очистку текста, извлечение ключевых сущностей и подготовку результатов в удобном для заказчика виде.
Решение:
Для решения задачи команда MIL Team разработала систему с фокусом на точность распознавания речи (с учётом медицинского контекста) и удобством интеграции в существующую инфраструктуру заказчика. Архитектура решения полностью развёрнута во внутреннем контуре заказчика без подключения к каким-либо внешним сервисам и включает в себя следующие ключевые этапы:
ASR-модель, обеспечивающая транскрибацию аудиофайлов в текстовый формат данных. Благодаря дообучению модели на медицинских данных достигнута высокая точность распознавания сложных медицинских терминов и профессиональной лексики.
Автоматическое определение границ речи каждого спикера – разделение реплик врача/оператора и пациента.
Результаты транскрибации подвергались дополнительной обработке с помощью внедрения LLM-модели, которая устраняла орфографические ошибки, корректировала распознавание сокращений и медицинских терминов, а также восстанавливала знаки препинания. Это обеспечивало читаемость и стилистическую однородность текстов.
К обработанному тексту применялись NER-модели, обученные отдельно под каждый тип данных — контактный центр, телемедицина и офлайн-прием. Для каждого типа взаимодействия определялся собственный набор сущностей. Например, для телемедицины извлекались поля: «Жалобы», «Диагноз», «Анамнез», «Обследования», «Дополнительные сведения» и «Рекомендации»
Инфраструктура и интерфейс:
Микросервисный бэкенд: все модули объединены в единый пайплайн, обёрнутый в микросервис, легко разворачиваемый во внутреннем контуре заказчика.
Фронт-энд интерфейс: разработан простой интерфейс, через который пользователь может загрузить архив аудиозаписей и получить на выходе:
Итоги:
Разработанное решение прошло независимое внутреннее тестирование на стороне заказчика и было сравнено с аналогичными решениями от других вендоров. По итогам оценки система, созданная MIL Team, продемонстрировала значительное превосходство по качеству распознавания и извлечения информации, полностью соответствуя ожиданиям и требованиям заказчика.
Ключевые метрики качества решения от MIL Team составили:
Перед командой MIL Team стояла задача по разработке решения для автоматической обработки и анализа большого объёма архивов медицинских аудиозаписей из различных каналов взаимодействия с пациентами:
- Контактный центр — звонки пациентов с целью записи на приём;
- Телемедицина — дистанционные консультации между врачём и пациентом;
- Офлайн-приёмы — записи разговоров врача и пациента во время очного визита.
Цель проекта заключалась в том, чтобы получить из неструктурированных аудиоданных структурированную текстовую информацию, пригодную для:
- аналитики и контроля качества консультаций;
- автоматического формирования медицинской документации;
- повышения эффективности внутренних процессов.
Задача осложнялась рядом факторов:
- различное качество записей и форматов аудиофайлов;
- наличие медицинской терминологии и речевых ошибок;
- отсутствие явной разметки участников диалога (врач/пациент);
MIL Team предстояло построить решение, которое обеспечит точную транскрибацию, очистку текста, извлечение ключевых сущностей и подготовку результатов в удобном для заказчика виде.
Решение:
Для решения задачи команда MIL Team разработала систему с фокусом на точность распознавания речи (с учётом медицинского контекста) и удобством интеграции в существующую инфраструктуру заказчика. Архитектура решения полностью развёрнута во внутреннем контуре заказчика без подключения к каким-либо внешним сервисам и включает в себя следующие ключевые этапы:
- Распознавание речи:
ASR-модель, обеспечивающая транскрибацию аудиофайлов в текстовый формат данных. Благодаря дообучению модели на медицинских данных достигнута высокая точность распознавания сложных медицинских терминов и профессиональной лексики.
- Диаризация:
Автоматическое определение границ речи каждого спикера – разделение реплик врача/оператора и пациента.
- Постобработка транскрибированного текста:
Результаты транскрибации подвергались дополнительной обработке с помощью внедрения LLM-модели, которая устраняла орфографические ошибки, корректировала распознавание сокращений и медицинских терминов, а также восстанавливала знаки препинания. Это обеспечивало читаемость и стилистическую однородность текстов.
- Выделение ключевых сущностей (NER):
К обработанному тексту применялись NER-модели, обученные отдельно под каждый тип данных — контактный центр, телемедицина и офлайн-прием. Для каждого типа взаимодействия определялся собственный набор сущностей. Например, для телемедицины извлекались поля: «Жалобы», «Диагноз», «Анамнез», «Обследования», «Дополнительные сведения» и «Рекомендации»
Инфраструктура и интерфейс:
Микросервисный бэкенд: все модули объединены в единый пайплайн, обёрнутый в микросервис, легко разворачиваемый во внутреннем контуре заказчика.
Фронт-энд интерфейс: разработан простой интерфейс, через который пользователь может загрузить архив аудиозаписей и получить на выходе:
- точную текстовую расшифровку аудиофайла;
- структурированный JSON-файл с выделенными сущностями.
Итоги:
Разработанное решение прошло независимое внутреннее тестирование на стороне заказчика и было сравнено с аналогичными решениями от других вендоров. По итогам оценки система, созданная MIL Team, продемонстрировала значительное превосходство по качеству распознавания и извлечения информации, полностью соответствуя ожиданиям и требованиям заказчика.
Ключевые метрики качества решения от MIL Team составили:
- Exact Match по сложным медицинским терминам – 85+%;
- Exact Match по простым терминам – 95+%.