Семантическое кодирование видео

Задача проекта:
Разработать метод нейросетевой компрессии видео, учитывающий высокоуровневую семантику.

Мотивация:
Разнообразный мультимедийный контент занимает важную часть в жизни современного человека и сейчас, как никогда ранее остро, стоит необходимость оптимизировать затраты на организацию хранения, передачи, стриминга огромного объема подобных данных. Следовательно, востребованы новейшие методы, которые позволят наиболее эффективно сжимать изображения/видеофайлы с минимальными потерями в качестве. В данной задаче, нейросетевые кодеки уже обходят традиционные даже в общем домене. При обучении на сжатие более специфичного и однородного контента преимущество увеличивается. В связи с чем, для проверки была выдвинута гипотеза, что учет моделью дополнительных данных, таких как смысловая составляющая видео, позволит поддерживать приятное для человека визуальное качество картинки, даже при большой степени сжатия видео.

Решение:
Наше решение базируется на лучших практиках по созданию нейросетевых видеокодеков для low latency сценария и собственных разработках по извлечению и использованию семантической информации.

Результаты:
Under NDA. Разработаны оригинальные нейросетевые модели и подходы к image/video сжатию на уровне актуальных SOTA решений.

Заказчик:
Under NDA.

Технологический стек:
Python, PyTorch.