Hitech logo
TODO:
27 декабря 2021 г., 12:07

Как технологии синтеза речи помогают наладить диалог с клиентами

Долгое время бизнесу приходилось выбирать между качеством и экономичностью телефонных сервисов. Службы поддержки, телемаркетинг, интервью с кандидатами отнимали слишком много времени у компетентных сотрудников — это вынудило предпринимателей обратиться к новым омниканальным способам коммуникации. Игорь Калинин, основатель и генеральный директор платформы TWIN рассказывает о том, как интеллектуальные технологии синтеза речи и NLU (Natural language understanding) помогают перезапустить привычное голосовое общение в новом цифровом формате.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Классические чат-боты на сайтах не случайно строят весь диалог так, чтобы он завершился вводом номера телефона. Готовность человека созвониться — быстрая и надежная проверка его готовности к покупке. Как правило, в чатах задают много вопросов, а голосом оформляют заказ.

NLU –– это понимание человеческого языка машиной, разработала такую модель создала английская компания OpenAI, и по мере того, как развиваются технологии распознавания и синтеза речи, ими пользуется больше людей. Только за 2020 год аудитория пользователей голосовых ассистентов в России выросла до 52 млн человек (с 71% до 77%). Аналитики Juniper Research считают, что к 2024 году общее количество голосовых устройств сравняется с населением Земли. Уже сейчас голосовые помощники включены почти на каждом смартфоне. Технология перестала быть новинкой. Если раньше люди удивлялись возможности поговорить с роботом, то сейчас многие рассчитывают на такой сервис.

Эволюция голосовых сервисов

Голосовые сервисы начинались с простых аудиозаписей. Потом были первые попытки синтеза речи, которые звучали очень неестественно и привлекали внимание исключительно постановкой смелой задачи — научить компьютеры говорить. Через некоторое время это действительно начало получаться. Теперь, благодаря технологии синтеза речи мы находимся на следующем уровне. Появилась возможность делать автоматическую озвучку, неразличимо похожую на живую человеческую речь.

Разработка синтеза речи –– это решение нового поколения, которые базируются на развитии IT в целом. Есть целый ряд ключевых технологий, которые в конечном итоге помогли роботам «заговорить»:

  • системы распознавания голоса
  • распознавание эмоций по речи
  • синтез голоса, тоже с настройкой эмоциональности
  • самообучающиеся нейросети, незаменимые для кастомизации
  • большие данные, алгоритмы обработки огромных массивов информации
  • Голосовые роботы нового поколения оснащены системами синтеза речи. Их качество сильно отличается. Вместо подчеркнуто механического робо-голоса современные решения на базе ИИ моделируют тембр, микро-паузы, рисунок фраз. Создается полный эффект общения с живым человеком.

    Зачем может потребоваться такая глубокая проработка? Информация же понятна при любом изложении. Вовсе нет. Аналитики Gartner считают, что в ближайшие годы будет настоящий бум речевой аналитики для бизнеса, причем часть исследований и разработок посвящена эмоциональной составляющей речи.

    Подбор актера для озвучки фильма или рекламного ролика часто становятся более сложной задачей для кастинга, чем утверждение актеров для съемок.  Специалисты научно-исследовательской лаборатории Business Speech Science Research пришли к выводу о том, что от тембра и звучания голоса зависят даже карьерные перспективы человека. Важно не только что мы говорим, но и как именно это делаем.

    Поэтому нет ничего удивительного в том, что в 2022 году только на изучение разговоров клиентов с операторами call-центров потрачено около $1,5 млрд — столько же, как раньше на всю речевую аналитику.

    Эмоции критично важны. Но разумеется, приятный баритон голосового ассистента не компенсирует пробелы в знаниях. Интеллектуальный прогресс автоответчиков тоже впечатляет. Ничего похожего на архаичные голосовые меню «Нажмите 1 для соединения с отделом продаж, нажмите 2 для…». Современные автоматические ассистенты могут ответить на большинство вопросов сами. Например, голосовой чат-бот Эрика в Bank of America выучил 60 000 разных запросов, и обработал больше 19 млн обращений. Причем благодаря такой модернизации популярность банка выросла почти на 200%.

    Автоматизированные системы проводят интервью с кандидатами на трудоустройство, выполняют функции технической поддержки, отвечают на вопросы и ведут полноценный разговор. Если робот сам не предупредит о том, что вы говорите не с человеком — догадаться об этом будет очень сложно.

    Чем голосовые ассистенты отличаются от обычных сотрудников

    Почему разработкам в области синтеза речи уделяют повышенное внимание? Такие решения интересны не только гикам. Они создают новые возможности для бизнеса. Прежде всего, потому что  голосовые ассистенты гораздо выгоднее сотрудников.

    Им не нужно платить зарплату и премии. Никаких налоговых отчислений, оплаты больничных. Вместо дорогого места в бизнес-центре занимают слот в ЦОД. Можно даже не разрабатывать своими силами, а приобрести готовое решение. В том числе по схеме White Label, то есть с возможностью пользоваться под своей торговой маркой.

    Кроме того, роботы неутомимы. Они работают круглосуточно, без выходных, отпусков, больничных. Голосовой помощник всегда на связи, а значит, сервис функционирует бесперебойно. Даже в случае пандемии, когда весь офис могут разогнать на «самоизоляцию», ничто не помешает работе автоматизированных сотрудников.

    Открываете новый филиал, пиковые нагрузки после удачной рекламной компании? Роботов очень легко масштабировать и постоянно совершенствовать, собирая как конструктор. Причем без привычного «проседания» качества, как бывает при массовом найме персонала. Систему автоматизации необходимо «донастраивать» регулярно, чтобы добиться оптимального качества ответов на все звонки. Таким образом, корпоративный стандарт качества наполняется реальным и четким смыслом. При управлении людьми добиться точного следования правилам гораздо сложнее.

    Качественные голосовые ассистенты всегда используют подходящие интонации. Они не устают, не раздражаются, не отвлекаются. Способны на дозированную эмпатию или юмор в указанном диапазоне — совсем как робот ТАРС из фильма «Интерстеллар».

    Вы не можете требовать такого от людей, но автоматизация позволяет управлять общением филигранно. В каждом филиале, при каждом звонке, круглосуточно.

    Дополнительные бонусы от применения автоматизации звонков:

  • Аналитика. Системы распознавания звукового потока позволяют фиксировать полный текст каждого разговора, тезисный конспект в виде ключевых смыслов и эмоции контрагента. Это те самые BigData, на основе которых нейросети ведут статистику следующего поколения.
  • Кастомизация. Даже без привязки к номеру телефона, только по голосу ИИ безошибочно узнает конкретного человека. Российские банки и госорганы начали использовать такие технологии в дополнение к визуальной биометрии.
  • Безопасность. Люди ошибаются, иногда халтурят, откровенно вредят, совершают правонарушения. Менеджер может «сливать» личные данные клиентов специально или попасться на уловки социальной инженерии. Робот бесстрастен и неподкупен. Кроме того, он не скинет файлы на флешку, не выдаст секретные данные. Риски гораздо ниже.
  • Наконец, голосовые боты все еще не приелись настолько, чтобы их просто не замечали. Безусловно, виральный эффект от инновации не вечен, но пока что пионеры голосовой индустрии получают публикации в СМИ и обсуждения в соцсетях. Причем это касается не только разработчиков.

    Крупные бренды и компании, которым важно позиционировать себя в качестве организаций полного цикла, используют схему White Label. То есть абонируют готовые решения. Вендор оказывает техническую поддержку, поэтому адаптация голосового ассистента под специфику продуктов не требует собственного IT-подразделения и доступна представителям разных отраслей.

    Перспективы голосовых решений 

    Скорее всего, количество голосовых интерфейсов и сервисов будет расти до тех пор, пока на них не перейдут все системы массового обслуживания. После чего еще несколько лет рост продолжится «вглубь», что означает дальнейшую кастомизацию, тонкую настройку и развитие эмоциональности речи роботов, возможно развитие образов и личностей.

    Причем это касается не только аудио. Уже сейчас есть решения, включающие аватары — то есть визуализацию, что делает контакт с роботом еще более реалистичным.

    Facebook и Microsoft создают виртуальные миры, пользователям которых понадобятся не только графические аватары, но и голос персонажа. Возможно, технология синтеза речи будет использоваться гораздо шире, чем мы привыкли думать, исходя из текущей конфигурации IT и каналов общения.

    Кроме того, благодаря системам распознавания скоро нас везде будут приветствовать идеальными голосами — точно такими, как любит каждый конкретный человек в определенной ситуации. И это не только забота о комфорте, но и стимулирование продаж или других целевых действий. По данным исследования HUI Research, аудиомаркетинг (воздействие на поведение посетителей с помощью музыки) увеличивает продажи на 9%. Интересно, на сколько они вырастут на пересечении ИИ, синтеза речи и больших данных. Скоро узнаем. И скорее всего, эти новости нам расскажут не люди, а роботы.

    Точка зрения автора колонки может не совпадать с мнением редакции.