Нейросетевые видеокодеки в режиме случайного доступа к кадрам

Описание проекта:

Перед командой MIL Team стояла задача повысить эффективность нейросетевых моделей видеокомпрессии с поддержкой случайного доступа к кадрам, улучшив ключевые метрики – качество изображения (PSNR) и битрейт (BPP). Заказчик столкнулся с проблемой: существующие методы, использующие оптический поток для кодирования движения, плохо справляются с этой задачей, так как требуют для декодирования зависимости между соседними кадрами. Это снижает возможность эффективного доступа к произвольным кадрам без необходимости декодировать всю последовательность. Более того, методы оптического потока не всегда эффективны при сжатии видео с нестабильными или нелинейными движениями, что увеличивает BPP и снижает PSNR. Заказчику требовались более адаптивные модели, которые бы обеспечивали высокое качество сжатия и возможность быстрого доступа к любому кадру в видео без значительных потерь эффективности.

Решение:

Командой MIL Team было проведено глубокое научное исследование предметной области, по итогам которого заказчик получил предложения по улучшению следующих нейросетевых моделей видеокомпрессии: LHBDC, FR-LHBDC, Bi-DCVC, а также прототип модели с гибридным подходом видеокомпрессии.

Рис. Пример анализируемой схемы декодера для оценки движения между декодированными прошлыми и будущими опорными кадрами, используемой для временного предсказания вектора движения из статьи [1].

Модель LHBDC прошла глубокую доработку. Основное улучшение было достигнуто благодаря использованию предобученной нейросети, которая позволила существенно повысить качество сжатия. Команда также провела серию экспериментов, заменив ключевые компоненты модели, такие как автокодировщики и энтропийные модели. Это привело к заметному улучшению показателя PSNR и снижению BPP, что сделало модель эффективнее в плане сжатия.

Для модели Bi-DCVC был переработан процесс обучения, включив поддержку дополнительного контекста и использование многоэтапного подхода, что позволило улучшить эффективность сжатия и повысить точность модели. В результате была создана обновлённая версия модели с улучшенной архитектурой, в которой применены передовые SotA решения для обработки контекста и адаптивные методы кодирования.

В качестве модели для построения прототипа гибридного подхода к кодированию движения была выбрана LHBDC, где вместо стандартного метода применили альтернативный подход для обработки движения. Предложенное решение позволило более точно восстанавливать кадры и сократить объем данных, необходимых для кодирования видео. В результате командой MIL Team были предложены идеи и гипотезы по дальнейшему улучшению гибридной модели.
Итоги:

Команда MIL Team завершила исследовательский проект, предоставив заказчику детализированный отчет с результатами экспериментов, рекомендациями для дальнейших исследований и исходным кодом всех разработанных моделей.

В ходе проекта подтвердили возможность улучшения существующих нейросетевых методов видеокомпрессии за счет внедрения новых архитектур и методов обучения. Модификации привели к значительному улучшению метрик PSNR и снижению BPP. Ключевыми аспектами проекта стали:

улучшение сжатия за счёт уменьшения зависимости между соседними кадрами;
улучшение декодирования отдельных кадров без необходимости обработки всей последовательности;
применение дополнительного контекста и использование многоэтапного подхода обучения модели с адаптивными стратегиями кодирования для минимизации потерь данных при случайном доступе;
сочетание алгоритмического и нейросетевого методов показало высокие перспективы для дальнейших исследований в области кодирования движения.