Видеоконференции для виртуальных встреч, дистанционного обучения или общения резко выросли с началом пандемии коронавируса. Некоторые эксперты предполагают, что даже после того, как вирус отступит, наша зависимость от виртуальных собраний останется частью нашей новой нормальности. Если это так, то огромная потребность в пропускной способности, которую повсеместная видеоконференцсвязь навязывает Интернету - от ядра до самых тонких ветвей, - никуда не денется.

Даже при использовании современных видеокодеков видеоконференция может потребовать пропускной способности: от 1 до 2 Мбит / с на участника только для того, чтобы эти миниатюрные изображения оставались на экране. И появляется все больше свидетельств того, что с опытом пользователи становятся более критичными к качеству изображения, стремясь увидеть мельчайшие детали мимики, жестов и позы, которые несут так много информации при личной встрече. Эта тенденция ограничивает возможность приложений использовать более высокие коэффициенты сжатия для уменьшения потребностей в полосе пропускания. Мелкие детали, которые выдает алгоритм сжатия, содержат как раз те подсказки, которые больше всего нужны опытному переговорщику.

AI спешит на помощь?
Помощь в решении этой дилеммы может прийти из удивительного источника: искусственного интеллекта (ИИ) или, более конкретно, ветви ИИ, называемой сетями глубокого обучения. Сегодня приложение машинного обучения под названием «Расширение изображения со сверхвысоким разрешением», которое уже изучается для доставки высококачественного видео на телевизионные экраны 4K UHD, может взаимодействовать с существующими приложениями для видеоконференцсвязи, чтобы значительно снизить требуемую скорость передачи данных.

Вот как это работает. Каждое устройство видеоконференцсвязи в конференции, которое намеревается отображать изображения с высоким разрешением, будет поддерживать две «модели логического вывода» машинного обучения. Каждая модель представляет собой блок кода и данных, который был заранее обучен в рамках исчерпывающего процесса в центре обработки данных для выполнения определенной функции. Одна из моделей обрабатывает видео с HD-камеры пользователя перед отправкой ей в приложение для конференц-связи, а другая обрабатывает видео, поступающее из приложения для конференц-связи, перед его отображением (рис. 1) .


1. Суперразрешение с поддержкой AI может уменьшить пропускную способность видеопотока в приложениях для видеоконференций.  Он использует две модели логического вывода машинного обучения: одна обрабатывает видео с HD-камеры пользователя перед отправкой в ​​приложение для конференц-связи, а другая обрабатывает видео, поступающее из приложения для конференц-связи, перед его отображением.  (Источник: Synaptics)
1. Суперразрешение с поддержкой AI может уменьшить пропускную способность видеопотока в приложениях для видеоконференций. Он использует две модели логического вывода машинного обучения: одна обрабатывает видео с HD-камеры пользователя перед отправкой ей в приложение для конференц-связи, а другая обрабатывает видео, поступающее из приложения для конференц-связи, перед его отображением. (Источник: Synaptics)


Первая модель снимает видео с камеры кадр за кадром и изолирует изображение пользователя от фона, уменьшая количество пикселей, с которыми придется иметь дело на более поздних этапах. Этот упрощенный видеопоток затем передается в обычное приложение для видеоконференцсвязи, где он дискретизируется до более низкого разрешения, например 480P, а затем сжимается с использованием стандартного алгоритма, такого как H.264. Сжатое видео впоследствии экспортируется. За исключением этого первого шага по изоляции изображения пользователя, все прошло так же, как и в любом другом сценарии видеоконференцсвязи.

На принимающей стороне приложение для видеоконференцсвязи принимает сжатый битовый поток, распаковывает его в видео с низким разрешением и отправляет видеопоток в подсистему отображения. Если изображение должно отображаться в виде эскиза - например, в многосторонней конференции - видео будет отображаться напрямую. Качество изображения будет достаточно хорошим для небольшого размера экрана. Но если изображение должно быть больше, распакованное видео перенаправляется во вторую модель глубокого обучения, расширитель сверхвысокого разрешения.

Модель со сверхвысоким разрешением была обучена с использованием множества изображений с разными лицами, освещением и позами, чтобы выборочно добавить обратно информацию, которая была потеряна при переходе к низкому разрешению и при сжатии. В результате получается высококачественное изображение исходного пользователя, которое очень похоже на его изображение в исходном видео с камеры HD.

Обратите внимание, что это не то же самое, что декомпрессия. Модель AI добавляет в изображение с низким разрешением функции, которых нет, но которые люди ожидают увидеть, завершая изображение с высоким разрешением кадр за кадром в реальном времени.

Что для этого нужно
Сети глубокого обучения, как и большинство видов искусственного интеллекта, известны своими огромными вычислительными аппетитами. К счастью, большая часть вычислений идет в первую очередь на обучение моделей - задача, выполняемая в центре обработки данных до того, как модель будет отправлена ​​пользователям. После обучения модели глубокого обучения это просто достаточно компактный блок кода и несколько файлов данных. Как модель извлечения данных пользователем, так и модель расширителя со сверхвысоким разрешением могут комфортно работать на графическом процессоре или достаточно быстром ноутбуке.

Но по мере того, как видеоконференцсвязь становится все более распространенной, возрастет потребность в использовании гораздо более скромных устройств, таких как специализированные устройства для конференц-связи, планшеты, смарт-телевизоры или телевизионные приставки. Работа над специальными аппаратными ускорителями глубокого обучения - микросхемами, которые значительно увеличивают количество одновременно выполняемых вычислений и резко снижают энергопотребление - сделала эти модели глубокого обучения доступными для недорогих устройств с низким энергопотреблением.

Одним из примеров этой работы является система на кристалле Synaptics VS680 (SoC). Этот мультимедийный процессор SoC сочетает в себе ядра ЦП Arm, графический процессор, подсистемы обработки видео и аудио, обширные средства обеспечения безопасности и конфиденциальности, а также ускоритель глубокого обучения, называемый блоком нейронной обработки. Этот последний блок может одновременно запускать как пользовательское извлечение, так и модели расширителя сверхвысокого разрешения с полной частотой кадров видео. В результате получается единый чип, который существенно снижает требования к полосе пропускания для видеоконференцсвязи, сохраняя при этом высокое качество изображения, по цене и потребляемой мощности, подходящим даже для недорогих дисплеев, стримеров и телевизионных приставок. Услуга совместима с существующими приложениями для видеоконференцсвязи.

Поскольку использование видеоконференцсвязи продолжает расти и ее используют все больше людей в областях, мало обслуживаемых широкополосным доступом - часто люди без дорогих ноутбуков - возможность значительно снизить требования к пропускной способности без ущерба для качества изображения, и делать это на недорогих устройствах. , будет становиться все более важным.

Многоликость глубокого обучения
Сетевая модель с глубоким обучением, однажды разработанная и обученная, может делать только то, чему ее научили: определять цветы, скажем, или, в нашем случае, выбирать человека из его окружения в кадре видео. Но базовое программное обеспечение и оборудование, которые выполняют обученную модель, часто могут обрабатывать самые разные модели машинного обучения, обученные разными способами для выполнения самых разных задач.


Например, микропрограммное обеспечение и аппаратное обеспечение блока нейронной обработки в Synaptics VS680 могут выполнять широкий спектр задач в мультимедийной системе. К ним относятся распознавание объектов, определение местоположения пользователя и окружения или обнаружение нежелательного контента или вредоносных программ во входящих потоках данных.

Вычисления, выполняемые глубокой нейронной сетью, массивны, но принципиально просты. На рисунке 2 показана структура одной из самых популярных нейронных сетей: MobileNet. Он содержит серию сверток, которые требуют огромного количества операций умножения и накопления.

2. Типичная структура глубокой нейронной сети, иллюстрирующая регулярную структуру вычислений, которая делает ее проблемной областью, подходящей для специализированного аппаратного ускорения.  (Источник: новый подход к классификации изображений с помощью плотных моделей MobileNet Wei Wang et al.)
2. Типичная структура глубокой нейронной сети, иллюстрирующая регулярную структуру вычислений, которая делает ее проблемной областью, подходящей для специализированного аппаратного ускорения. (Источник: новый подход к классификации изображений с помощью плотных моделей MobileNet Wei Wang et al.)


Это делает проблему легко поддающейся оптимизации с помощью специальных аппаратных реализаций. MobileNet - это типичная сеть, которую можно использовать для нескольких приложений обработки изображений. Сети для других задач строятся с использованием подобных примитивов; вот почему специальный блок нейронной обработки в Synaptics VS680 может обеспечить высокую производительность для любой задачи глубокого обучения искусственного интеллекта в видео, аудио или аналитических приложениях, и это лишь некоторые из них.

Одно недавнее предложение производителя графических процессоров демонстрирует необязательно желательные пределы, до которых может быть достигнута эта гибкость. Существует категория сетей глубокого обучения, которые называются генерирующими состязательными сетями или GAN. Наиболее широко они используются для создания фальшивых видеороликов.

Имея подробную фотографию человека и набор параметров, определяющих расположение и ориентацию основных черт лица и частей тела, хорошо обученный GAN сгенерирует фотореалистичное изображение человека. Это изображение может быть в окружении, отсутствующем на исходной фотографии, а жесты и выражения могут отличаться от тех, что были на исходной фотографии. Соедините последовательность таких сгенерированных изображений вместе, и у вас будет видео, на котором человек делает или говорит то, чего он никогда не делал или не говорил, в месте, где он, возможно, никогда не был.


В обучении GAN задействованы две нейронные сети: генератор и дискриминатор (рис. 3) . Генератор будет генерировать случайные изображения, которые дискриминатор попытается отличить от реальных изображений. Несоответствие между сгенерированным изображением и реальным изображением возвращается в генератор во время обучения. Со временем генератор сможет генерировать изображения, которые дискриминатор не сможет отличить от реальных. Сеть дискриминатора выполняет классификацию изображений и может быть основана на MobileNet или другой сети.

3. Две нейронные сети используются для обучения системы восполнению недостающих деталей из представлений с низкой пропускной способностью: генератор и дискриминатор взаимодействуют друг с другом в противоборстве, чтобы научиться создавать достоверные недостающие детали.  (Источник: Google)
3. Две нейронные сети используются для обучения системы восполнению недостающих деталей из представлений с низкой пропускной способностью: генератор и дискриминатор взаимодействуют друг с другом в противоборстве, чтобы научиться создавать достоверные недостающие детали. (Источник: Google)


Несмотря на очевидное прискорбное использование этой технологии, ее также можно использовать для сокращения потребителя полосы пропускания в видеоконференцсвязи. Используя GAN для создания изображения пользователя на принимающей стороне соединения, вам нужно только отправить начальное статическое изображение, а затем поток данных, определяющий расположение и форму ключевых функций. Этот поток данных может быть значительно меньше исходного сжатого видеопотока с высоким разрешением.

Есть практические вопросы. Во-первых, поскольку этот метод отправляет поток абстрактных данных, а не поток стандартного сжатого видео, он несовместим с существующими приложениями для видеоконференцсвязи. С другой стороны, риски безопасности эксплуатации сети видеоконференцсвязи, заполненной сетями GAN, любая из которых может быть взломана для создания глубоко поддельных изображений вместо реконструированных, потребуют тщательного рассмотрения. Но эта идея иллюстрирует, как, когда устройство для видеоконференцсвязи может выполнять модели глубокого обучения, воображение становится единственным ограничением функций, которые оно может выполнять.

Оборудование для ускорения вывода с глубоким обучением, такое как нейронный процессор VS680, может развернуть искусственный интеллект для сокращения пропускной способности. Такое решение способно работать с существующими службами конференц-связи и соответствовать бюджету стоимости и мощности недорогих потребительских устройств. Дистанционное обучение и работа на дому не должны заставлять нас выбирать, либо пользователи научатся мириться с ужасным качеством изображения, либо поставщики услуг сделают более глубокие инвестиции в пропускную способность сети. Обладая интеллектом, мы можем съесть свой пирог и тоже его съесть.