Hitech logo

Идеи

Алгоритм WellSaid Labs генерирует живой голос быстрее и лучше, чем Siri и Alexa

TODO:
Степан Икаев25 сентября 2020 г., 14:25

Несмотря на стремительное развитие рынка умных колонок и появление голосовых помощников практически в каждом смартфоне, в синтезе речи сохраняется масса технологических проблем. Главная из них, которую все еще не могут решить специалисты из Apple и Amazon, — медленная скорость генерации голоса. Однако, как сообщает TechCrunch, одному стартапу удалось обойти эти ограничения — модель WellSaid Labs анализирует текст практически в два раза быстрее, чем произносит, создает до 15 голосов высокого качества, а также поддерживает несколько языков.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Изначально разработчики из WellSaid полагались на проект Google Tacotron, который вывел стандарты искусственной речи на новый уровень в 2018 году. Tacotron 2 использовал нейронные сети для самообучения и практически не требовал грамматических знаний, а генерируемый голос было невозможно отличить от настоящего человека. Тем не менее WellSaid Labs отказалась от Tacotron в пользу собственной разработки.

«Хотя Tacotron 2 был выпущен два года назад, и он все еще остается современным. Но есть пара проблем. Во-первых, он не очень быстрый — для создания одной секунды звука требуется три минуты предварительной обработки. И он построен для моделирования только 15 секунд звука. А теперь представьте себе, что вы создаете 10 минут контента. Возможности Tacotron 2 на несколько порядков меньше того, что хотим предложить мы» — объясняет Майкл Петрочук, глава WellSaid Labs.

Обновленная модель одновременно делает упор на скорость, качество и продолжительность. В результате появился алгоритм, способный генерировать минутные клипы со скоростью около 36 секунд вместо пары часов. В серии тестов, организованных самой WellSaid, алгоритм компании обошел как Tacotron от Google, так и синтетические голоса от других разработчиков — сгенерированная речь звучит так, как будто ее произносит живой человек, со всеми интонациями, лингвистически трудными словами и специальными терминами.

При этом алгоритм сейчас одинаково хорошо работает с тремя языками: испанским, французским и немецким. На английском стартап выпускает только демонстрационные клипы.

Главное достижение WellSaid — 8-часовое чтение романа Мэри Шелли «Франкенштейн» без перерывов и с генерацией речи в режим реального времени. Однако стартап ориентируется не на рынок аудиокниг, а на корпоративный сегмент и планирует интегрировать алгоритмы в процесс корпоративного обучения сотрудников.