ИИ Facebook синтезирует речь за 500 миллисекунд

Искусстввенный интеллект

Георгий Голованов18 мая 2020 г., 09:28

Георгий Голованов18 мая 2020 г., 09:28

Facebook представила крайне эффективную систему преобразования текста в речь в режиме реального времени, для работы которой достаточно обычных процессоров. Она уже используется в Portal, умном дисплее компании, а в скором будущем научится распознавать основные европейские акценты.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Система искусственного интеллекта в тандеме с новым методом сбора данных, разработанным специалистами Facebook, способна синтезировать секунду аудио за 500 миллисекунд. С их помощью разработчики сумели создать голос, говорящий с британским акцентом, всего за шесть месяцев, а не за год с лишним, как раньше, пишет Venture Beat.

Конгрессу США показали видео как НЛО «поглотил» удар ракеты Hellfire

Большинство современных систем синтеза речи требуют графических карт, программируемых логических интегральных схем (ПЛИС) или специально разработанных ИИ-чипов вроде тензорных процессоров Google. Кроме того, им нужны десятки тысяч образцов. Все это, к тому же, обходится не дешево.

Система Facebook обещает высококачественные голоса без необходимости в специальном аппаратном обеспечении, при этом скорость синтеза в 160 раз выше по сравнению с базовыми показателями. Она состоит из четырех элементов, каждый из которых отвечает за отдельный аспект речи: лингвистический интерфейс, просодическая модель, акустическая модель и нейронный вокодер.

Настройки стиля позволяют клиенту задавать характер звучания нового голоса: мягкий, быстрый, напористый, участливый и т. д. из небольшого объема дополнительных данных. На создание каждого стиля уходит всего от 30 до 60 минут, на порядок меньше, чем у аналогичных систем Amazon.

Разработчики намерены еще больше «облегчить» систему, чтобы ее можно было использовать на небольших устройствах. Кроме того, в скором времени она научится понимать устную английскую речь с французским, немецким, итальянским и испанским акцентами.

В прошлом году Google представила модель, распознающую речь людей с нарушениями дикции или плохо говорящих по-английски. Сервис Project Euphonia понимает пациентов с боковым амиотрофическим склерозом и сильным акцентом на 62% и 35% соответственно.

Также по теме

Идеи

Deus Automobiles показал электрический гиперкар мощностью 2230 л.с.

Идеи

Ученые доказали, что организм человека не приспособлен к углеводам

Идеи

Феномен гравитационного эха станет ключом к новой физике

Идеи

Новая теория терагерцовых волн обеспечит прогресс в ИТ и медицине

Новости СМИ2