Исследователи из Массачусетского технологического института разработали алгоритм, который способен реконструировать облик человека на основе записи его голоса. Как сообщает Futurism, для работы ИИ достаточно короткого аудиоклипа.
В основу алгоритма, получившего название Speech2Face, положена генеративная состязательная нейросеть, сопоставляющая особенности речи с рядом биометрических характеристик говорящего. Проанализировав небольшую запись, программа выдает примерное — и довольно грубое — изображение лица говорящего.
Результаты ИИ далеки от портретного сходства, но в качестве доказательства концепции они впечатляют. Speech2Face в очередной раз подтверждает, что современные алгоритмы способны делать невероятные выводы на основе крошечных фрагментов данных.
Создатели Speech2Face уже призвали к осторожности всех, кто планирует развивать и применять эту технологию. По их словам, для начала необходимо исключить нарушения конфиденциальности и дискриминации по расовому или гендерному признаку.
Исследователи MIT не являются первыми, кто создал алгоритм, воссоздающий физические характеристики говорящего на основе записи голоса. Их коллеги из Университета Карнеги-Меллона ведут аналогичные исследования уже второй год. Все говорит о том, что со временем на рынке появятся и такие сервисы, и визуализировать аудиозаписи или звонки в реальном времени они будут достаточно точно.
Порой искусственный интеллект используется в очень необычных сферах. Например, в Голливуде алгоритмы помогают продюсерам предсказать кассовый успех фильма задолго до его выхода — в некоторых случаях уже на стадии сценария.