Изначально разработчики из WellSaid полагались на проект Google Tacotron, который вывел стандарты искусственной речи на новый уровень в 2018 году. Tacotron 2 использовал нейронные сети для самообучения и практически не требовал грамматических знаний, а генерируемый голос было невозможно отличить от настоящего человека. Тем не менее WellSaid Labs отказалась от Tacotron в пользу собственной разработки.
«Хотя Tacotron 2 был выпущен два года назад, и он все еще остается современным. Но есть пара проблем. Во-первых, он не очень быстрый — для создания одной секунды звука требуется три минуты предварительной обработки. И он построен для моделирования только 15 секунд звука. А теперь представьте себе, что вы создаете 10 минут контента. Возможности Tacotron 2 на несколько порядков меньше того, что хотим предложить мы» — объясняет Майкл Петрочук, глава WellSaid Labs.
Обновленная модель одновременно делает упор на скорость, качество и продолжительность. В результате появился алгоритм, способный генерировать минутные клипы со скоростью около 36 секунд вместо пары часов. В серии тестов, организованных самой WellSaid, алгоритм компании обошел как Tacotron от Google, так и синтетические голоса от других разработчиков — сгенерированная речь звучит так, как будто ее произносит живой человек, со всеми интонациями, лингвистически трудными словами и специальными терминами.
При этом алгоритм сейчас одинаково хорошо работает с тремя языками: испанским, французским и немецким. На английском стартап выпускает только демонстрационные клипы.
Главное достижение WellSaid — 8-часовое чтение романа Мэри Шелли «Франкенштейн» без перерывов и с генерацией речи в режим реального времени. Однако стартап ориентируется не на рынок аудиокниг, а на корпоративный сегмент и планирует интегрировать алгоритмы в процесс корпоративного обучения сотрудников.