Google раскрыла подробности работы будок телеприсутствия Starline

Идеи

Георгий Голованов3 декабря 2021 г., 11:00

Георгий Голованов3 декабря 2021 г., 11:00

В новой статье разработчики из Google подробно описали технологию телеприсутствия, которую представили на прошедшей конференции I/O. Проект «Starline» — это, по сути, трехмерная будка для видеосвязи, которая должна заменить обычные, скучные двухмерные видеочаты и создать ощущение, будто ты и в самом деле находишься напротив собеседника. Выяснилось, в частности, что цветное изображение пишется с четырех точек, создается три карты глубины и семь звуковых дорожек.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Звучит просто, но при попытке реализовать такой своевременный проект инженеры Google столкнулись с множеством трудностей. Оказывается, заставить мозг поверить в то, что собеседник сидит на расстоянии вытянутой руки, а не за сотни километров, довольно сложно. Очевидно, изображение должно обладать высоким разрешением и не иметь отвлекающих артефактов. При этом оно должно выглядеть реалистично вне зависимости от положения пользователя, сидящего в будке. Другая проблема — звук. Аудиосистемы должны передавать звучание голоса собеседника так, будто оно исходит из его рта. Плюс есть еще вопрос зрительного контакта, рассказывает Verge.

«Если ИИ — это мозг робота, то RPA — его руки». Что умеют программные роботы

Тем не менее, разработчики надеются создать технологию телеприсутствия, которая создаст опыт виртуальной реальности без громоздких гарнитур и датчиков. В статье подробно описывается, сколько аппаратуры потребуется для решения этой проблемы. В основе системы — экран с диагональю 65 дюймов, разрешением 8К и частотой 60 Гц. Вокруг него установлены три «устройства захвата», считывающих данные о цвете и глубине. Также имеются четыре дополнительных камеры слежения, четыре микрофона, два динамика и инфракрасные проекторы. Всего цветное изображение пишется с четырех точек, создается три карты глубины и семь звуковых дорожек.

Все это оборудование генерирует массу данных, которые нужно потом передать. Для этого требуется пропускная способность от 30 Мбит/с до 100 Мбит/с, в зависимости от детализации одежды и обилия жестикуляции. Это существенно больше, чем при обычном звонке через Zoom, но средний офис в крупном городе может себе позволить такую связь. Для кодирования данных используются четыре графических процессора Nvidia (две Quadro RTX 6000 и две Titan RTX).

Испытания технологии проводились в течение девяти месяцев в разных офисах Google. Всего 117 пользователей провели 308 конференций в будках Starline. Средняя длительность звонка составила 35 минут.

О коммерциализации проекта пока речи не идет.

Летом компания Nvidia представила новый продукт, построенный на глубоком обучении нейросетей — алгоритм Vid2Vid Cameo AI. Он разработан с целью упростить и усовершенствовать рабочие процессы в условиях карантина. Vid2Vid Cameo берет статичную фотографию пользователя и анимирует ее мимикой в режиме реального времени, заменяя получившимся синтетическим видео потоковую видеотрансляцию.

Также по теме

Идеи

Распространение коронавируса подчиняется правилу 20/80

Идеи

Открыт ключевой механизм поддержания у теломер нужной длины

Идеи

Астрономы идентифицировали три вида следов гравитационных волн

Идеи

Гравитационные волны помогут заглянуть в начало времен

Новости СМИ2