Мотивация запуска проекта заказчиком: cистемы активного шумоподавления, в том числе основанные на нейронных сетях, активно используются в различных сервисах для аудио и видео связи. Большинство таких систем хорошо справляется с задачей шумоподавления преимущественно в ситуациях высоким уровнем полезного сигнала и низким уровнем шума. Была поставлена цель построить real-time систему, способную очищать аудиозапись от шума в заданных ограничениях.
Описание исходной ситуации:
большинство существующих моделей speech enchancement хорошо работает на высоких SNR;
имеется небольшое количество общепринятых датасетов для speech enchancement;
кроме общеизвестных метрик, таких как SDR и PESQ, важна также субъективная оценка качества звучания результирующей аудиозаписи;
для применимости результатов моделирования в реальном времени, важно минимизировать размер окна в будущем (lookahead), который используется для предсказания текущего значения.
Цели проекта:
Повышение качества моделей шумоподавления в случае крайне низкого значения SNR (отношение уровней сигнал/шум).
Решение MIL Team: улучшение существующих решений и создание собственных моделей, показывающих высокий прирост в терминах общепринятых метрик оценки качества аудиозаписей (PESQ, SDR) и ошибки распознавания речи (WER) для аудиозаписей с высоким уровнем шума по сравнению с речью (SNR от -10).
Для построения модели были использованы:
открытые датасеты аудиозаписей с речью Voicebank и Librispeech;
открытые датасеты аудиозаписей с шумами DEMAND, MUSAN.
Результаты моделирования: Obtained two promising WaveUnet models with following metrics: 8kHz: PESQ + 0.3(average), +0.3(0 SNR), SDR +6.3(average), +9.5(0 SNR), 15.98 MMACs [Best Metrics] 8kHz + Dilations + DepthWise: PESQ + 0.3(average), +0.3(0 SNR), SDR +6.2(average), +9.1(0 SNR), 7.49 MMACs [Smallest MAC count] Obtained 16kHz model which is not smallest in terms of MACs, nor best in metrics, but perceptual quality is better due to higher sampling rate: 16kHz + Dilations + DepthWise: PESQ + 0.3(average), +0.3(0 SNR), SDR +5.4(average), +8.2(0 SNR), 14.6 MMACs [Better perceptually]