Logo
Cover

Специалисты Microsoft воспользовались системой неконтролируемого обучения, раздела машинного обучения, использующего немаркированные данные. Их нейросеть произносит слова почти идеально, и для этого было достаточно всего 200 аудиозаписей с транскрипцией.

В статье «Almost Unsupervised Text to Speech and Automatic Speech Recognition» разработчики описали, как им удалось добиться результата. Ключевым элементом стал Transformers — новый тип нейронной архитектуры, представленный в 2017 году учеными из Google Brain.

Как и другие глубокие нейросети, эта содержит искусственные нейроны (математические функции, приблизительно имитирующие функции нейронов мозга), расположенные связанными между собой слоями, которые передают сигналы входящих данных и медленно накапливают семантическую силу или вес каждой связи. Отличие Transformers в том, что в ней каждый входящий элемент связан с исходящим, и нагрузка на них вычисляется динамически.

Применив эту архитектуру, специалисты Microsoft представили письменный текст или устную речь в виде входящих или исходящих данных, а в качестве их источника выбрали открытую базу аудиозаписей с английской разговорной речью и транскрипцией LJSpeech. Из нее они случайным образом выбрали 200 клипов, сообщает VentureBeat.

Результат оказался вполне приличным: алгоритм легко превзошел трех главных конкурентов, а многие из опубликованных примеров компьютерной речи звучали почти неотличимо от человеческой. Точность артикуляции составила 99,84%.

Статья будет представлена на Международной конференции по машинному обучению в Калифорнии. Команда Microsoft планирует опубликовать код в ближайшие недели.

На днях Google показала первый ИИ для перевода устрой речи с одного языка на другой без преобразования фразы в текст и обратно. Алгоритм работает быстрее каскадных аналогов, но его точность пока не на высоте.