Hitech logo

Речевые технологии

«Через 6-10 лет появятся интерфейсы, которые заменят речь на обмен мыслями»

TODO:
Ирина Ли14 сентября 2018 г., 12:55

Почему речевые технологии пока заметно проигрывают в уровне развития распознаванию образов? Какими будут интерфейсы будущего? Есть ли у Facebook технологии, чтобы подслушивать пользователей через микрофон смартфона? Можно ли подделать голос для обмана систем идентификации? Обо всем этом в интервью Хайтек+ рассказал гендиректор ЦРТ (Центра речевых технологий) Дмитрий Дырмовский.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

ЦРТ занимается разработкой систем мультимодальной биометрии, в том числе распознаванием лиц, распознаванием и синтезом речи. Среди продуктов — решения по записи и обработке телефонных разговоров с целью отслеживания качества обслуживания, программы преобразования речи в текст, системы распознавания лиц, которые работают в аэропортах и на стадионах. Клиенты компании — ВТБ, «Северсталь», МЧС России, Ростелеком, администрация президента России, МВД Мексики, Народный банк Казахстана. Контролируется Газпромбанком. Офисы находятся в Санкт-Петербурге, Москве и Нью-Йорке.

— В чем сложности работы с речевыми технологиями?

 — Есть акустическая модель и лингвистическая (языковая). Акустическая модель применяется для сопоставления звучащих звуков с произносимыми фонемами. Акустическое моделирование — одна из самых сложных вещей в распознавании речи. То, как звучит тот или иной звук, зависит не только от говорящего, но и от канала — говорите вы по телефону или записываетесь на диктофон — и акустические модели тут применяются разные.

Языковая модель статистически предсказывает, какое слово прозвучало исходя из контекста, частотности и сочетаемости слов. Она зависит от того, на каком языке говорят, какой словарь используется: общий, юридический, медицинский и т. д. Например, формат интервью намного проще для распознавания, чем обычный разговор по телефону между друзьями. В бытовом разговоре очень много контекста: сокращений, «своих» слов, которые мы не понимаем, но знают оба собеседника, так как они находятся внутри одного контекста. Система распознавания же не знает этого контекста. Используя семантику, нейронная сеть строит гипотезы, чтобы точнее определить, что за слово было произнесено, какое применить окончание.

Ведь даже при обычном разговоре вы улавливаете только 95% произнесенных слов — остальное домысливаете исходя из контекста, так устроен человеческий мозг.

Машине важно находиться в контексте, если его нет, остальное будет распознано неправильно.

К тому же не стоит забывать про учет контекста для понимания сказанного. Тем же голосовым помощникам на основе искусственного интеллекта нужно понимать юмор, иронию, сарказм для того, чтобы точно и продуктивно вести диалог с живым человеком. В этом плане распознавать речь сложнее, чем изображения.

— Почему?

— Во-первых, в лицевой биометрии меньше вариативности. В голосе много внешних шумов — от музыки до сторонней речи. В фотографиях же меньше помех, которые мешают выделить лицо. Какие могут быть препятствия при распознавании лица? Тени, плохое качество фотографии, ракурс — наберется от силы 5-10 разновидностей. Во-вторых, видеоматериалов и фото, на которых нейросети могут обучаться, в миллионы раз больше, чем хороших речевых баз. В-третьих, речь зависит от языка. Для машинного зрения не важно, на каком языке вы говорите.

Может, сейчас не все движки очень хорошо работают с расами, но видеоинформации больше, ее легче обрабатывать, и разработчики из разных стран легко могут использовать достижения зарубежных коллег. Как я уже сказал, доступной речевой информации намного меньше, ее сложнее разметить для обучения нейросетей. Особенно проблемно работать с редкими языками. С английским, китайским, испанским нет никаких проблем, а с каким-нибудь диалектом португальского, аварского — уже есть.

Хотя и в распознавании лиц еще есть куда развиваться, что изучать. Например, поиск в базе по скетчу или эскизу лица, распознавание в макияже и даже в парандже — над всеми этими задачами сейчас бьются лучшие ученые в разных странах.

— А как обстоят дела с акцентами? Есть много видео, где та же Alexa не всегда понимает, например, шотландцев.

— Зависит от того, на чем обучался движок. Например, наш движок силен в акцентах народов России — от вологодского до кавказского. Для его обучения мы ездили по всей стране, общались с людьми, записывали речь, собирали различные диалекты, произношения. Странно, что у Alexa есть такие проблемы, баз с разными акцентами на английском довольно много, их можно купить, хоть это и дорого.

— А есть ли проблемы с точки зрения лингвистики? Ведь любой современный язык живой, постоянно обновляется.

— Когда уже собран акустический уровень, меняется лишь языковая модель: просто загружаете текстовки со сленгом, новыми словами, сокращениями — и все. Концептуально, тонально язык же не меняется. Русский никогда не станет китайским. Новые слова с новыми смыслами — это семантика. У нас есть решение, которое, например, может быть обучено под вашу речь, вашу лексику: вы скармливаете системе свою почту, тексты, и она начнет понимать вашу манеру письма и общения, будет заточена под ваш контекст. Врач, физик-ядерщик и журналист — это ведь совсем разная лексика.

— Есть много компаний по визуальному распознаванию, машинному зрению, но с речью работают немногие. Из крупных можно вспомнить только «Яндекс». Почему в России так мало компаний, занимающихся распознаванием речи?

— Все дело в сложности входа на рынок из-за технологических проблем, о которых я уже говорил. Кроме того, этот рынок уже, сфер применения меньше, чем у машинного зрения. Из-за этого и денег меньше.

Третья причина — довольно сложно конкурировать. Очень дорого построить большую команду с нуля, нужно вкладываться в процессорные мощности. И надо понимать, для чего ты это делаешь. Даже если у тебя есть технология, одной ее мало, нужно иметь конечный продукт, который решал бы конкретную задачу.

— Недавно вы вошли в Единую биометрическую систему. Хватает ли сейчас двух опций — лицо и голос — для безопасной удаленной идентификации?

— Да, достаточно. Это же не просто голос и лицо, там целый механизм. Несколько видов биометрии — динамическая, статическая. Стоят несколько детекторов, которые определяют, что, например, это живое лицо, что это не склейка из голосов, не монтаж. Нынешний способ аутентификации в две модальности — лицо и голос — уже очень точен. Конечно, есть планы добавлять и другие модальности, такие как распознавание радужной оболочки глаза. Она, кстати, считается самой надежной в биометрии.

— Но при этом ее распространения не случилось? Можно вспомнить, как тот же Samsung внедрял в свои смартфоны подобный способ разблокировки несколько лет назад.

— Не зашло потому, что технологии пока не совершенны. Для распознавания оболочки глаза нужна камера с огромным разрешением, это накладывает ограничения. А такие вещи, как Единая биометрическая система, все-таки должны быть массовыми — смартфон с камерой и микрофоном сейчас есть у всех. Сканирование отпечатка пальца или радужки увеличивает безопасность, но ограничиват круг пользователей.

— Какие есть способы подделать голос?

— Во-первых, ваш голос могут сымитировать пародисты. Хотя на слух вы и не почувствуете разницу, система безошибочно определяет фальшивку. Она анализирует параметры, зависящие от уникального строения вашего голосового тракта — тональности и других производных, а это подделать очень сложно. Второе — это склейка, монтаж чужого голоса. Но современные системы способны засечь попытку перезаписи, места склеек. Плюс динамическая верификация, когда надо что-то произнести. Другой способ — синтез речи, когда искусственно создается имитация чужой речи. Четвертый, самый неприятный — изменение речи, когда с помощью ПО меняются акустические параметры, чтобы подтянуть звук под голос искомого диктора.

Понятное дело, что если применить комбинацию вышеперечисленных способов сразу, то машину можно будет обмануть. Но тут стоит вопрос времени и денег. Стоит ли это того?

— Который год не утихают дискуссии насчет того, что Facebook тайно прослушивает разговоры через микрофон смартфона, чтобы потом таргетировать рекламу в ленте. При этом компания неоднократно это опровергала. Прослушка Facebook может быть правдой? Современные речевые технологии настолько развиты, что способны на это?

— Технически не вижу проблем для реализации. Дело в том, что для такой задачи не нужна стопроцентная точность, из всего разговора можно распознать несколько слов и таргетировать рекламу исходя из них: попали — хорошо, не попали — ничего страшного. Тут не так страшно ошибиться.

После того, как решена задача получения звука, дальше перевести его в текстовую версию и анализировать — не проблема, Facebook это уже умеет делать.

Знаю, что у них есть лаборатория по распознаванию речи, есть ресурсы, это большая корпорация. Проблема может быть в том, что они еще не настолько сильны в русском языке, но это вопрос времени.

— Я заметила, что функция распознавания речи в Google Docs не понимает диктофонные записи, хотя если диктовать голосом, то все работает. Почему? В чем разница между распознаванием живого голоса и проигранной аудиозаписи с речью?

— Как я уже говорил, в распознавании речи есть акустическая и лингвистическая модели. Последняя отвечает за словарь, который знает робот, то, что он прочитал, выучил. Чем шире модель, тем больше требуется ресурсов.

Акустическая зависит от разных каналов. Есть модель дистанционного микрофона — это, например, запись беседы двух людей на диктофон. Есть телефонный канал. Есть модель диктовки, когда вы диктуете прямо в микрофон. Очевидно, у Google подключена последняя модель. Если использовать другую модель, то в таком случае распознавание просто не работает.

Это компания делает для того, чтобы себя не подставлять, ведь диктофонная запись очень вариативна, много шумов, полоса звука огромная, полезет много ошибок.

По той же причине «Яндекс» убрал распознавание речи с «облака». Оно осталось лишь в «Яндекс.Картах», «Навигаторе», где узкий словарь и довольно специфичная лексика. Чем уже словарь, тем проще его распознавать.

— Умные колонки с голосовыми помощниками в России сейчас — нишевый рынок, в то время как в США у каждого стоит та же Alexa или Google Home. Когда, на ваш взгляд, в России станут популярны умные системы и голосовые помощники? И, вообще, выстрелит ли эта история у нас в стране?

— Точно выстрелит. Будет ли это колонка или «облачный» помощник, может, даже телефон или холодильник — это вопрос дискуссионный. Точно будет популярен некий цифровой помощник с речевым интерфейсом, ведь речь — это самый естественный и привычный человеческий способ общения, это быстро, удобно. И распознавание голоса может быть внедрено везде, где есть человеко-машинные интерфейсы — беспилотники, интернет вещей. А в более далеком будущем мы сможем уже даже не общаться, а меняться мыслями.

— Когда это станет возможным?

— Нейроинтерфейсы уже сейчас существуют и позволяют выполнять какие-то простые команды, и все это развивается с большой скоростью. Все идет к тому, что будет происходить смещение из речевого канала к нейроинтерфейсам.

Причем это будет происходить постепенно, одни интерфейсы будут замещаться другими, и мы сможем обмениваться мыслями, образами.

В ближайшие шесть-десять лет, я думаю, мы увидим подобные продукты. Сначала они будут популярны среди гиков, но позже появятся и массовые решения.