Недавние успехи глубокого обучения существенно улучшили системы преобразования текста в речь (TTS) благодаря более эффективному изучению голоса и речевых стилей говорящих и генерированию более естественной исходящей речи, пишут исследователи в блоге. И все же, чтобы создавать такую качественную речь, большинству систем TTS требуются большие и сложные нейросети, которые непросто обучать и которые не могут синтезировать речь в реальном времени — даже при наличии мощных графических процессоров.
Решить эту проблему, команда из IBM разработала новый метод синтеза искусственной речи, основанный на модульной архитектуре, пишет VentureBeat.
Созданная ими система состоит из трех взаимосвязанных частей: предсказателя просодии, предсказателя акустических характеристик и нейронного вокодера. Первый элемент изучает длительность, высоту звуков и энергию образцов речи, чтобы лучше передать стиль речи говорящего. Второй элемент создает репрезентации голоса говорящего, а третий генерирует образцы речи исходя из акустических характеристик.
Все элементы работают сообща над тем, чтобы искусственный голос как можно точнее походил на голос образца, и при этом используют небольшой объем данных.
Во время теста, когда добровольцев попросили послушать и оценить качество двух образцов речи (оригинального и синтезированного), они отметили высокое качество и схожесть голосов, на создание которых потребовалось всего пять минут речи.
Эта модель легла в основу нового сервиса преобразования текста в речь IBM Watson. Пример можно послушать по ссылке (в выпадающем меню нужно выбрать V3).
Весной команда специалистов IBM представила новую архитектуру обработки данных, которая работает в 15 раз быстрее аналогов. Это позволяет сократить время обучения модели распознавания естественного языка с одной недели до 11 часов.