На презентации в Монреале компания рассказала о своих достижениях в общении между машиной и человеком. «Искусственный интеллект совместно с другими инновациями помогает решать интересные задачи», — заявил глава Института датологии Alibaba Жун Цзинь. Одна из них — распознавание речи среди шумной толпы, например, на станции метро в час-пик или в переполненном торговом центре, сообщает VentureBeat.
Решение, которое представили специалисты Alibaba, частично опирается на аппаратное обеспечение, частично — на софт: массив микрофонов в дальней зоне и сложные алгоритмы глубокого обучения, которые изолируют голоса в толпе, существенно снижая коэффициент ошибок.
Нынешние лучшие технологии распознавания речи дают точность в 84%. Модель Alibaba достигает точности в 94-95%, даже если у говорящего сильный акцент.
Система уже используется в аппаратах по продаже билетов в Шанхае, и компания ведет переговоры по ее развертыванию в других городах.
Голос — не единственная область, в которой Alibaba намерена применять ИИ. При помощи технологий обработки естественной речи компания выполняет автоматический перевод с одного языка на другой в режиме реального времени в облаке.
Кроме того, компания предлагает услуги своего голосового помощника Alime, который, как и Google Duplex, поддерживает разговор с человеком, а также автоматически — и лучше, чем человек — извлекает текст и изображения из предоставленного документа.
Разговорные технологии Alibaba использовала и при создании бота, умеющего торговаться с клиентом. Этот сложная задача, требующая умений в области стратегии переговоров и навыков генерации текста — но конечный результат того стоит. Испытания на платформе с 10 млн пользователей показали, что у бота на 20% выше шансы заключить сделку, чем у человека.
Недавно разработчики стартапа DarwinAI рассказали о создании нейросети, которая работает даже на бюджетных смартфонах. Одна из их моделей показала 97-процентную точность распознавания речи, превзойдя все известные результаты.