Hitech logo

Искусстввенный интеллект

ИИ Facebook синтезирует речь за 500 миллисекунд

TODO:
Георгий Голованов18 мая 2020 г., 09:28

Facebook представила крайне эффективную систему преобразования текста в речь в режиме реального времени, для работы которой достаточно обычных процессоров. Она уже используется в Portal, умном дисплее компании, а в скором будущем научится распознавать основные европейские акценты.  

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Система искусственного интеллекта в тандеме с новым методом сбора данных, разработанным специалистами Facebook, способна синтезировать секунду аудио за 500 миллисекунд. С их помощью разработчики сумели создать голос, говорящий с британским акцентом, всего за шесть месяцев, а не за год с лишним, как раньше, пишет Venture Beat.

Большинство современных систем синтеза речи требуют графических карт, программируемых логических интегральных схем (ПЛИС) или специально разработанных ИИ-чипов вроде тензорных процессоров Google. Кроме того, им нужны десятки тысяч образцов. Все это, к тому же, обходится не дешево.

Система Facebook обещает высококачественные голоса без необходимости в специальном аппаратном обеспечении, при этом скорость синтеза в 160 раз выше по сравнению с базовыми показателями. Она состоит из четырех элементов, каждый из которых отвечает за отдельный аспект речи: лингвистический интерфейс, просодическая модель, акустическая модель и нейронный вокодер.

Настройки стиля позволяют клиенту задавать характер звучания нового голоса: мягкий, быстрый, напористый, участливый и т. д. из небольшого объема дополнительных данных. На создание каждого стиля уходит всего от 30 до 60 минут, на порядок меньше, чем у аналогичных систем Amazon.

Разработчики намерены еще больше «облегчить» систему, чтобы ее можно было использовать на небольших устройствах. Кроме того, в скором времени она научится понимать устную английскую речь с французским, немецким, итальянским и испанским акцентами.  

В прошлом году Google представила модель, распознающую речь людей с нарушениями дикции или плохо говорящих по-английски. Сервис Project Euphonia понимает пациентов с боковым амиотрофическим склерозом и сильным акцентом на 62% и 35% соответственно.