«Голосового бота сегодня все сложнее отличить от человека»
Logo
Cover

Мировой рынок технологий распознавания речи превысит $30 млрд уже в 2025 году. Разработки в этой сфере ведут крупнейшие IT-компании, в том числе и в России. Игорь Калинин, основатель компании TWIN, рассказал, как за четыре года построить крупную платформу для создания голосовых ботов, выйти на рынок стоимостью 150 млрд рублей и создать алгоритм распознавания речи с точностью 93%. Он также поделился прогнозом о будущем технологий в сфере синтеза речи и определения эмоций по голосу.

— До основания TWIN вы занимались технологиями IP-связи. Почему решили переключиться на разработку голосовых ботов? 

— Мы работали на рынке IP-связи в первой половине 2010-х: налаживали работу виртуальных облачных АТС на территории России и СНГ, сотрудничали с такими IT-компаниями, как «Яндекс». В 2014 году к нам обратилась российская компания, которая создавала сервисы для крупных банков — они хотели разработать робота для оповещения клиентов. Мы создали сервис, который обращался к каждому пользователю по имени и совершал звонки с учетом разницы во времени в разных регионах. В последующие пару лет бот стал проводить более 5 млн звонков в день. Тогда мы еще не использовали синтез речи — фразы для робота записывал диктор. 

В какой-то момент клиенты захотели добавить функцию распознавания речи, чтобы бот мог отвечать на вопросы. Уже в 2016 году мы представили технологию на конференции НАПКА — тогда на рынке не было аналогов, и мы оказались в числе лидеров. Так пришла идея основать TWIN. 

Первое время мы, как и многие наши конкуренты, работали в качестве голосового провайдера, но к концу 2018 года сменили модель развития на платформу, позволяющую автоматизировать все коммуникации, включая голос, чат и любые виды нотификаций. Например, запустили визуальный редактор, в котором клиент мог запрограммировать и запустить любого голосового или текстового робота. В итоге всего за год оборот TWIN вырос в 5,5 раз. В этом году ожидаем рост до 250 млн.

— Сколько вложений потребовалось для запуска стартапа на раннем этапе? 

— Стартовый капитал TWIN составил всего 5 млн рублей, но к концу 2016 мы потратили всю сумму. Из-за этого пришлось работать в ускоренном темпе — первый прототип голосового бота мы собрали всего за пару месяцев, а через полгода уже запустили продукт.

— Сейчас многие занимаются голосовыми технологиями — на западе рынок уже достаточно насыщен. С кем вы конкурируете и на каких рынках?

— У TWIN есть несколько представительств, в том числе в США, Украине, ОАЭ и странах Европы, поэтому стараемся мониторить все предложения конкурентов на рынке.

Один из самых крупных игроков в сфере платформенных решений для коммуникаций — это американская компания Twilio. У них в команде 2500 человек, а выручка доходит до $1,134 млрд в год. Конечно, масштаб у наших компаний разный. Но есть и другое принципиальное отличие — Twilio предоставляет технологии разработчикам, а они помогают компаниям автоматизировать процесс по коммуникациям.

Мы же работаем напрямую с бизнесом и предоставляем уже готовый продукт, который может настроить любой человек без знания программирования. При этом клиент получает полноценного виртуального помощника, который способен принимать решения и вести общение через разные каналы коммуникаций.

На нашей платформе мы предлагаем более 2000 различных сценариев на выбор — то есть выступаем одновременно и разработчиком, и удобным агрегатором собственных решений.

На российском рынке сейчас многие экспериментируют с голосовыми ИИ-технологиями и создают действительно сильные интеллектуальные модели. Но зачастую такие разработки сложно адаптировать под конкретные нужды клиента — особенно это касается звонков. Но нам в TWIN удалось разработать уникальную модель сотрудничества: мы не просто предоставляем технологии, мы помогаем с их реализацией, подключая к процессу сеть партнеров. Для каждой ниши на рынке у нас есть определенная группа экспертов, которая специализируется на автоматизации отдельных направлений — это может быть, например, экспертиза в банковской отрасли. На данный момент с нами работает 13 партнеров, и 70% из них уже создали собственные торговые марки, многие работают по whitelabel-модели.

Важно, что TWIN не продает сырые технологии, а предлагает готовый продукт, который приносит конкретные результаты. Клиент не просто покупает бота — он получает рост определенных KPI на каждом участке бизнес-процесса.

В отличие от той же Twilio, мы предлагаем базу готовых решений, которые клиенту не придется долго совершенствовать и оптимизировать. Мы упрощаем коммуникации на всех уровнях и предлагаем инструменты, которые помогают быстро переключаться с одного канала на другой — например, переходить от голосового общения в чат и наоборот.

— Как сейчас устроен бизнес?

— Мы постоянно разрабатываем новые решения и сейчас получили уже более 10 патентов. На данный момент предлагаем клиентам 14 сервисов и порядка 40 микросервисов, среди которых сервисы определения эмоций, синтеза и распознавания речи. У каждого мини-подразделения своя команда, свои инженеры и своя логика принятия решений. Периодически мы привлекаем разработчиков на аутсорсе — например, консультируемся с талантливыми специалистами по машинному обучению, которые работали с Google и IBM.

Что касается бизнес-модели, то тут мы используем два разных подхода. Первая модель предполагает бесплатный доступ к нашей платформе, но при этом каждое действие на ней биллингуется. Если клиент использует голосового бота, то действует посекундный тариф. Это удобно, потому что обычно на рынке устанавливают поминутную тарификацию или берут фиксированную сумму за 15 секунд — из-за этого приходится переплачивать. Если бот говорил ровно 10 секунд, то клиент платит ровно за 10 секунд — ни больше, ни меньше. 

С чат-ботами работаем по похожей системе: настраиваем сервис бесплатно, но за любое действие помощника берем оплату по установленному тарифу. 

Вторая бизнес-модель TWIN — это enterprise-версия продукта. В этом случае мы встраиваем платформу в контур компании и оказываем сервисную поддержку. 

В целом, стараемся экспериментировать с бизнес-моделями. Например, в США у нас есть кейсы предоставления услуг по подписке — в пакет услуг входит 100 / 200 минут на звонки с использованием голосового бота. На американском рынке вообще распространены пакетные услуги — компаниям проще регулярно вносить фиксированную сумму за подписку, чем оплачивать сервис посекундно.

Кроме того, с 2003 года в Америке действует национальная база данных телефонных номеров владельцев, отказывающихся от рекламных звонков, — Do Not Call Registry. Стараемся всегда учитывать такие нюансы местного законодательства. 

— Вы подчеркиваете, что принципиально не станете тратить деньги на ненужные разработки ради эксперимента. Как вы определяете, в какие технологии инвестировать, а от каких стоит отказаться?

— Мы всегда ищем наиболее оптимальное и эффективное решение. И зачастую обучение нейросети с нуля — это не лучший вариант, поэтому мы грамотно соединяем возможности уже доступных сервисов. Для распознавания речи мы дополняем собственную систему распознавания речи TWIN разработками Google, Amazon, Tinkoff и «Яндекса». Именно эти усилия приводят к качественному распознаванию на протяжении всего диалога. Это дорого, но зато эффективно — все сервисы используются одновременно и позволяют быстро подобрать релевантный вариант. В результате такой работы мы получаем 95% распознавания речи, что лишь немногим уступает показателям человека. Когда мы начинали в 2016 году, точность систем распознавания речи держалась на уровне 70-80%. 

— Вы как-то дорабатываете существующие модели алгоритмов?

— Чтобы системы работали качественно, они должны постоянно совершенствоваться. Поэтому мы непрерывно собираем инсайты на основе уже записанных диалогов и прокачиваем алгоритмы. Для этого мы берем готовый диалог, корректируем все несовершенства и по отдельным сегментам выгружаем в систему для дальнейшего обучения. Тренировать ИИ нам помогают студенты радиофака УрФУ (ИРИТ-РтФ) — они занимаются профессиональной разметкой данных в качестве практики. 

— Вы также предлагаете клиентам сервис распознавания эмоций по голосу. Насколько это эффективная технология?

— Большинство наших клиентов можно поделить на шесть категорий: это финтех-сервисы, транспортно-логистические компании, сервисы грузоперевозок, страховые компании, e-commerce площадки и лидогенераторы. Обычно их контакт-центры работают в довольно монотонном ритме. 

Но бывают случаи, когда клиент обращается не со стандартным вопросом по обслуживанию, а с негативом — например, задерживается посылка или груз. Робот здесь ничем не поможет, а только вызовет еще большее раздражение. Эмоционального клиента мы не будем соединять с ботом, а сразу же переведем на оператора. Так, негативный отклик будет отрабатывать работник колл-центра, а клиенту с позитивным настроем компания может сделать выгодное спецпредложение, поскольку он более сговорчив и готов к диалогу. 

Изначально запрос на этот сервис возник у транспортной компании.

Мы планировали настроить распознавание 12 эмоций, но пока технологии позволяют с минимальной погрешностью определить лишь три настроения: позитивное, негативное и нейтральное. Алгоритм маркирует базовые эмоции безошибочно в 93-95% случаев — разница в 5-7% зависит от качества связи. Определять оттенки настроения уже сложнее — например, трудно понять, обеспокоен клиент или раздражен. 

С текстовыми чат-ботами все примерно так же: алгоритм не просто распознает эмоции по ключевым словам, он определяет общее настроение текста — и в случае негатива переключает клиента на оператора. Бывает, что клиент использует грубую лексику, но на самом деле задает обычный вопрос. Наша технология распознавания текста видит разницу.

Также у TWIN есть опция распознавания гендера по голосу с первой секунды разговора — точность составляет 98%. Это важный момент, поскольку голосовые боты часто звонят на номер конкретному клиенту, но снять трубку может кто угодно. Робот с функцией распознавания поймет, что трубку взял мужчина, хотя клиент — женщина. В этом случае бот попросит позвать к телефону нужного человека.

— А какие в целом перспективы у технологии распознавания речи на рынке? По какой траектории она будет развиваться?

— Технологии становятся все более доступными — качественный сервис распознавания речи, который в условном 2016-м стоил 1 млн рублей, сегодня можно купить за 50 тыс. Из-за демократизации популярность продолжит расти, и распознавание голоса станет базовой надстройкой, которой будут пользоваться тысячи компаний по всему миру. Одним словом, рынок ожидает стабильный рост, но при этом сама технология станет более растиражированной, а значит, конкуренция обострится. 

— Можно ли говорить об автоматизации целых профессий из-за развития распознавания? Например, заменят ли боты операторов колл-центров?

— Не думаю, что все контакт-центры станут автоматизированными в диапазоне 5 или даже 10 лет. Но голосовые технологии, безусловно, спровоцируют рост рынка — индустрия будет увеличиваться не на умеренные 30% в год, а в 2, 3 или даже 5 раз.  

В то же время у нас был один очень интересный кейс. За счет внедрения технологий TWIN компания, которая за два года не только не сократила штат из 500 человек, но и наняла дополнительно еще 600 специалистов.

В целом, новые технологии — это не столько про сокращение издержек, сколько про их оптимизацию, а также увеличение прибыли. Поэтому массовые сокращения — по крайней мере в крупных компаниях — это точно миф. 

Важно понимать, что применение голосовых технологий не ограничивается колл-центрами. Наш продукт рассчитан на тысячи компаний, с которыми коммуницируют миллионы клиентов ежедневно — через менеджеров, посредников и так далее. Рынок контакт-центров в России оценивается в 13-14 млрд рублей, тогда как общий рынок коммуникаций составляет, по нашим оценкам, 150 млрд.  

— В случае с голосовыми технологиями встает вопрос этики. Голосовая система Duplex от Google в свое время вызвала немало вопросов, например должен ли ИИ представляться в диалоге с клиентом и предупреждать, что на связи бот, а не человек. Как вы решаете эту проблему и проблема ли это, на ваш взгляд?

— С юридической точки зрения, технология пока формально никак не регулируется — закон об искусственном интеллекте в России все еще обсуждают и многие понятия до сих пор не закреплены. На российском рынке компании сами вправе решать, будет ли бот представляться электронным помощником или реальным человеком. По нашему опыту, оба варианта пользуются одинаковой популярностью. Однако в некоторых сферах важно, чтобы робот называл себя автоинформатором, а не сотрудником компании. 

Лично я предпочел бы общаться с конкретным собеседником — если это человек, то он должен представиться, а если бот, то у него должно быть уникальное имя или цифровой идентификатор. Обычно люди понимают, что говорят с роботом, если речь синтезирована. Но если мы используем записанные диктором фразы, то в 70-100% случаях бота принимают за человека. 

— За какими голосовыми технологиями вы следите и какие прорывы ожидаете в ближайшее время?

— Приоритетное направление сегодня — это как раз синтез речи, потому что технология еще далека от совершенства. Самое слабое звено — это эмоциональный окрас речи, который пока с трудом дается ботам. Вторая технология, за которой мы следим, — это инструменты для автоматизированного принятия решений. Команда TWIN уже работает над языком программирования роботов, который во многом опирается на алгоритмы стратегических видеоигр. Каждое ваше решение определяет дальнейший ход событий. Поэтому первостепенная задача сейчас — написать и «оживить» код.