Звучит просто, но при попытке реализовать такой своевременный проект инженеры Google столкнулись с множеством трудностей. Оказывается, заставить мозг поверить в то, что собеседник сидит на расстоянии вытянутой руки, а не за сотни километров, довольно сложно. Очевидно, изображение должно обладать высоким разрешением и не иметь отвлекающих артефактов. При этом оно должно выглядеть реалистично вне зависимости от положения пользователя, сидящего в будке. Другая проблема — звук. Аудиосистемы должны передавать звучание голоса собеседника так, будто оно исходит из его рта. Плюс есть еще вопрос зрительного контакта, рассказывает Verge.
Тем не менее, разработчики надеются создать технологию телеприсутствия, которая создаст опыт виртуальной реальности без громоздких гарнитур и датчиков. В статье подробно описывается, сколько аппаратуры потребуется для решения этой проблемы. В основе системы — экран с диагональю 65 дюймов, разрешением 8К и частотой 60 Гц. Вокруг него установлены три «устройства захвата», считывающих данные о цвете и глубине. Также имеются четыре дополнительных камеры слежения, четыре микрофона, два динамика и инфракрасные проекторы. Всего цветное изображение пишется с четырех точек, создается три карты глубины и семь звуковых дорожек.
Все это оборудование генерирует массу данных, которые нужно потом передать. Для этого требуется пропускная способность от 30 Мбит/с до 100 Мбит/с, в зависимости от детализации одежды и обилия жестикуляции. Это существенно больше, чем при обычном звонке через Zoom, но средний офис в крупном городе может себе позволить такую связь. Для кодирования данных используются четыре графических процессора Nvidia (две Quadro RTX 6000 и две Titan RTX).
Испытания технологии проводились в течение девяти месяцев в разных офисах Google. Всего 117 пользователей провели 308 конференций в будках Starline. Средняя длительность звонка составила 35 минут.
О коммерциализации проекта пока речи не идет.
Летом компания Nvidia представила новый продукт, построенный на глубоком обучении нейросетей — алгоритм Vid2Vid Cameo AI. Он разработан с целью упростить и усовершенствовать рабочие процессы в условиях карантина. Vid2Vid Cameo берет статичную фотографию пользователя и анимирует ее мимикой в режиме реального времени, заменяя получившимся синтетическим видео потоковую видеотрансляцию.