Разработчики из Google Research представили революционный алгоритм перевода речи с одного языка на другой — Translatotron. Это первый ИИ, который манипулирует исключительно звуками речи.
Нынешние алгоритмы перевода — в том числе и Google Translate — работают как каскадная система. Вначале одна часть распознает, что сказал человек, и переводит звуки в текст. Затем этот текст переводят на целевой язык и снова озвучивают.
В Google Research указывают, что такой подход медленнее, а к тому же менее надежен из-за того, что с речью совершают целый ряд преобразований. Уже сейчас Translatortron быстрее традиционных систем.
А вот точнее его сделать пока не удалось. Пока это лишь доказательство концепции: «Хотя наши результаты отстают от обычной каскадной системы, мы продемонстрировали возможность сквозного прямого преобразования речи в речь».
Translatotron напрямую преобразует спектрограмму из одного языка в другой. Нынешний прототип работает с двумя самыми распространенными в США — английским и испанским языком. В депозитории на Github выложены примеры работы модели — как хорошие, так и плохие.
При этом у алгоритма есть особенность, которую традиционные каскадные системы скопировать не в силах. Благодаря анализу звуковых волн можно подключить надстройку, которая при переводе фразы постарается сохранить особенности голоса и интонации говорящего.
Использование подобных Translatotron алгоритмов вдохнет новую жизнь в гаджеты-переводчики, подобные наушникам, которые выпустила компания Timekettle.