Logo
Cover

О портретном сходстве результатов распознавания голоса алгоритмом, созданным в MIT, говорить пока не приходится, но ИИ уже успешно определяет возраст говорящего, его расовую принадлежность, тип лица и даже примерный цвет волос.

Исследователи из Массачусетского технологического института разработали алгоритм, который способен реконструировать облик человека на основе записи его голоса. Как сообщает Futurism, для работы ИИ достаточно короткого аудиоклипа.

В основу алгоритма, получившего название Speech2Face, положена генеративная состязательная нейросеть, сопоставляющая особенности речи с рядом биометрических характеристик говорящего. Проанализировав небольшую запись, программа выдает примерное — и довольно грубое — изображение лица говорящего.

Результаты ИИ далеки от портретного сходства, но в качестве доказательства концепции они впечатляют. Speech2Face в очередной раз подтверждает, что современные алгоритмы способны делать невероятные выводы на основе крошечных фрагментов данных.

Создатели Speech2Face уже призвали к осторожности всех, кто планирует развивать и применять эту технологию. По их словам, для начала необходимо исключить нарушения конфиденциальности и дискриминации по расовому или гендерному признаку.

Исследователи MIT не являются первыми, кто создал алгоритм, воссоздающий физические характеристики говорящего на основе записи голоса. Их коллеги из Университета Карнеги-Меллона ведут аналогичные исследования уже второй год. Все говорит о том, что со временем на рынке появятся и такие сервисы, и визуализировать аудиозаписи или звонки в реальном времени они будут достаточно точно.

Порой искусственный интеллект используется в очень необычных сферах. Например, в Голливуде алгоритмы помогают продюсерам предсказать кассовый успех фильма задолго до его выхода — в некоторых случаях уже на стадии сценария.