В статье «Almost Unsupervised Text to Speech and Automatic Speech Recognition» разработчики описали, как им удалось добиться результата. Ключевым элементом стал Transformers — новый тип нейронной архитектуры, представленный в 2017 году учеными из Google Brain.
Как и другие глубокие нейросети, эта содержит искусственные нейроны (математические функции, приблизительно имитирующие функции нейронов мозга), расположенные связанными между собой слоями, которые передают сигналы входящих данных и медленно накапливают семантическую силу или вес каждой связи. Отличие Transformers в том, что в ней каждый входящий элемент связан с исходящим, и нагрузка на них вычисляется динамически.
Применив эту архитектуру, специалисты Microsoft представили письменный текст или устную речь в виде входящих или исходящих данных, а в качестве их источника выбрали открытую базу аудиозаписей с английской разговорной речью и транскрипцией LJSpeech. Из нее они случайным образом выбрали 200 клипов, сообщает VentureBeat.
Результат оказался вполне приличным: алгоритм легко превзошел трех главных конкурентов, а многие из опубликованных примеров компьютерной речи звучали почти неотличимо от человеческой. Точность артикуляции составила 99,84%.
Статья будет представлена на Международной конференции по машинному обучению в Калифорнии. Команда Microsoft планирует опубликовать код в ближайшие недели.
На днях Google показала первый ИИ для перевода устрой речи с одного языка на другой без преобразования фразы в текст и обратно. Алгоритм работает быстрее каскадных аналогов, но его точность пока не на высоте.