Обучение систем автоматического распознавания речи, таких как Siri, Google Assistant или Alexa, требует применения сложных систем кодировки для преобразования голоса в функции, которые понимают машины, и обратного декодирования в понятный человеку текст. Такие модели получаются довольно большими, что усложняет их тренировку, пишет VentureBeat.
Решением инженеров IBM стало увеличение объема партии, или числа образцов, которые можно обработать единовременно, но не без разбора — это бы негативно повлияло на точность. Поэтому они применили метод распределенного глубокого обучения — асинхронный децентрализованный параллельный стохастический градиентный спуск (ADPSGD).
Специалисты компании описали новую архитектуру распределенной обработки данных, которая в 15 раз ускоряет процесс обучения без потери точности.
Если ее развернуть на системе с несколькими графическими картами, она сократит общее время тренировки с недель до дней.
Сокращение времени обучения позволит исследователям увеличить число итераций при разработке новых алгоритмов. Особенно это важно для нестандартных случаев, когда необходимо добиться высоких уровней точности, говорится в статье, которую сотрудники IBM представят на международной конференции ICASSP в следующем месяце.
Алгоритм распознавания речи, который без ошибок работает на недорогих смартфонах, разработан в Канаде. Одна из моделей показала 97-процентную точность распознавания речи, превзойдя все известные результаты.