Logo
Cover

Британский стартап Sonantic добился значительного прогресса в создании искусственных голосов, неотличимых от «биологической» речи. Компания разработала ИИ, который синтезирует речь с выражением таких сложных эмоций, как любовь, гнев, страх, кокетство, застенчивость, поддразнивание. Sonantic показала ролик с примером работы своих алгоритмов: женский голос говорит о любви, имитируя особенности речи обычного человека — запинаясь, посмеиваясь и меняя тембр во время разговора. Понять, что это говорит машина, а не живой человек, на слух невозможно.

Как сообщает The Verge, Sonantic заявляет, что совершил прорыв в создании «звуковых дипфейков». Разработчикам удалось воспроизвести синтетический голос, который может выражать тонкие особенности речи реального человека, включая поддразнивание и флирт. Ключом к этому открытию стали алгоритмы — ИИ Sonantic был обучен на десятках тысячах настоящих разговоров, в ходе которых программа научилась воспроизводить малозаметные, но важные вздохи и смешки. Теперь, утверждают в компании, облачная платформа может придать искусственной речи «печать биологической достоверности».

В качестве доказательства Sonantic привел демонстрационный ролик «What’s Her Secret?», в котором синтезированная девушка обращается к зрителю. Модель долго не может решить, как заговорить с пользователем, начинает рассуждать о чувствах, а затем признается зрителю в любви и сообщает, что на самом деле она никогда не существовала и все, что у нее есть — это голос, созданный на компьютере.

«Мы выбрали любовь в качестве общей темы. Но цель нашего исследования состояла в том, чтобы увидеть, можем ли мы моделировать тонкие эмоции. Большие эмоции уловить намного легче», — объяснил учредитель и технический директор Sonantic Джон Флинн.

Флин также добавил, что главное отличие Sonantic от конкурентов заключается в способности направлять, контролировать и редактировать голоса. Компания описывает свою платформу как «Photoshop для голоса». Для клиентов разработчик предоставляет широкий набор программных инструментов, с помощью которых пользователи пишут текст для новых моделей, выбирают эмоции, расставляют акценты и добавляют речевые особенности. Пользователь Sonantic также может выбрать конкретную заготовку голоса из базы, созданной на основе голосов реальных актеров-людей.

Актуальная версия Sonantic поддерживает ряд предустановок, включая гнев, страх, грусть, счастье и радость, а в ближайшее время к ним присоединятся кокетство, застенчивость, поддразнивание и хвастовство. Эти режимы обещают упростить создание новых моделей — клиент сможет выбрать наиболее подходящий образ и загрузить на платформу свой текст, после чего большую часть работы выполнят алгоритмы.

Целевая аудитория Sonantic — разработчики видеоигр и компании, специализирующиеся на создании мультимедиа-контента. Однако интерес к речевым технологиям стартапа уже проявляют и другие отрасли. Например, в прошлом году Sonantic заключил соглашение с Mercedes — стартап займется интеграцией и настройкой цифрового помощника для умных автомобилей от немецкого бренда.