Hitech logo

Кейсы

Голосовой ассистент спешит на помощь: как искусственный интеллект облегчает жизнь человека

TODO:
Роман Савицкий14 апреля 2022 г., 08:27

В настоящее время нашу жизнь невозможно представить без голосовых помощников: используя их, мы ищем нужную информацию в интернете, строим маршруты, заводим будильник. По данным аналитических агентств, мировой рынок виртуальных ассистентов составляет около $3 млрд. Чего ждать обществу от голосовых помощников в будущем, какие технологии применяются в их разработке, рассказывает руководитель направления «гео» департамента разработки виртуальных ассистентов «Салют» SberDevices Марк Моисеев.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

— Марк, давайте представим вас нашим читателям. Вы руководите технически сложными и инновационными проектами в SberDevices: можете рассказать, чем там занимаетесь, что входит в ваши функции?

— Я руководитель направления гео-навыков ассистента: моя команда обучает голосового помощника отвечать на вопросы, связанные с маршрутами, местами на карте, ресторанами. Мы также занимаемся интеграцией ассистента в 2ГИС.

Мы создавали навыки (способности ассистента отвечать на вопросы про навигацию, построение маршрутов, выбор ресторанов, покупку билетов в кино) в линейке умных устройств от SberDevices —в  умных колонках, экранах в Сбербанк онлайн, 2ГИС. Были проданы миллионы устройств. Это был очень интересный опыт, так как нами решались совсем не классические интерфейсные задачи — как сделать удобным выбор ресторанов на телевизоре? Мы много исследовали, общались с пользователями, проводили usability тестирования. Также я руководил созданием гео-навыков в приложении Сбербанк Онлайн (месячная аудитория приложения — свыше 90 миллионов человек, больше половины населения РФ).

Для обучения ассистента мы использовали модели машинного обучения, думаю, наши проекты одни из самых крупных в РФ с искусственным интеллектом и действительно влияют на индустрию.

— Какие результаты вами достигнуты в SberDevices?

— Во-первых, осуществил интеграцию голосового ассистента Салют в приложение 2ГИС (около 3-х миллионов месячных пользователей голосового ассистента, суммарно аудитория мобильных приложений 2ГИС больше, чем 30 миллионов в месяц).

Во-вторых, разработал голосового ассистента для умных устройств SberDevices. Устройства SberDevices получали много международный премий, в том числе Red Dot Awards. Моя команда обучала устройства отвечать на различные гео-запросы подобрать ресторан, купить билет в кино или просто найти открытую аптеку поблизости.

В-третьих, под моим руководством созданы навыки «гео» в приложении Сбербанк Онлайн. Сбербанк Онлайн входит в топ приложений России, им пользуются десятки миллионов человек.

— Это действительно серьезные результаты, в технологическом плане. Однако они важны не только для бизнеса компании, но и для всего общества, потому что облегчают повседневную жизнь миллионов пользователей. Вы собирали отзывы людей о работе ваших цифровых решений?

— Да, вы правы: пользуясь ассистентами, человеку жить становится во многих аспектах легче. Конечно, мы отслеживаем отзывы пользователей, статтистику, продуктовые метрики: по ним было видно, что  качество работы моделей значительно улучшилось. Таким образом, у нас в 2ГИС после совершения много итераций получилось создать то, что серьезно влияет на индустрию в целом. Меня очень воодушевляет, что можно влиять на индустрию целиком через такие продукты.

— Когда речь идет о разработке голосовых помощников, сейчас много говорят об интеллекте (IQ) в технологиях. Почему?

— Голосовые ассистенты создаются, чтобы человек мог им передоверить как можно больше задач. Соответственно, программа должна быстро и правильно распознать, проанализировать команду пользователя и точно выполнить. Для этого и нужен IQ — «ум» ассистентов. Думаю, скоро наступит такой момент, когда огромное количество рутинных  повседневных действий будут в том или ином виде будет выполнять ИИ. Уже сейчас можно набрать онлайн-корзину товаров, полностью пройдя «путь» голосом: «Добавь молоко 3,5 литра такого-то бренда плюс повтори прошлый заказ доставь на адрес такой-то». Найти в определенном районе ресторан с азиатской кухней и высоким рейтингом — тоже одна из возможностей, которой мы научили нашего ассистента «Салют».

Марк Моисеев

Однако в разработке голосовых помощников  важны  технологии не только  IQ, но и EQ (эмоционального интеллекта). EQ — это эмоции и эмпатия ассистента. Разработчики стремятся решить невероятно сложную задачу — сделать так, чтобы ассистент отвечал с ожидаемыми эмоциями в нужных местах,  анализировал настроение человека. Например, голосовой помощник, принимая звонок клиента на горячую линию, по первым фразам понимает остроту вопроса и предоставляет ответ как можно скорее.

Помимо  ассистентов, все более популярными становятся генеративные модели, которые будут отвечать скорее за более творческий подход к решению задач.

— Расскажите, в чем разница между ассистентами и генеративным ИИ?

— Основное различие в методах обучения моделей и в сфере применения. Если объяснить упрощенно, то в ассистентах есть готовые шаблоны ответов на разные запросы пользователей. В зависимости от вопроса, дополнительных данных и контекста, голосовой помощник подбирает правильный ответ. А генеративный ИИ генерирует контент сам, создавая тексты, картины, может добавлять что-то свое на основе данных, заложенных при обучении, — он  больше направлен на творческий подход к решению задачи.

— На ваш взгляд профессионала, который давно и успешно разрабатывает голосовые помощники, существует ли проблема с точностью распознавания речи ими?

— За распознавание речи в голосовых ассистентах отвечают сразу несколько моделей. Конечно, чтобы повысить точность распознавания, нужен большой массив данных, с учетом того, что на одном языке люди разных национальностей и в разных регионах говорят по-своему. Например, 2ГИС работает в СНГ, где в каждой стране (и даже в регионах России) по-русски говорят с акцентами, используют разные диалекты и наборы слов. Также важно при создании голосового помощника делать так, чтобы он распознавал речь в неодинаковых акустических условиях: в машине, дома, в офисе, на открытом воздухе…

На слуху история, когда одна компания совершила ошибку, обучив голосового ассистента на открытых данных, содержащих очень качественный английский без шумов, без акцента. В  результате ассистент не мог понимать обычных пользователей, потому что их речь сильно отличалась от образцов в идеальных условиях.

При разработке голосовых ассистентов нужно учитывать огромное количество факторов, практикуя научный подход. Только в этом случае можно совершить прорыв, увидеть, как растут продуктовые метрики, как улучшается качество распознавания речи и создаются продукты огромного масштаба.

— В каком направлении будут развиваться технологии голосовых ассистентов?

— В последнее время все проще и проще взаимодействовать с искусственным интеллектом в жизни людей за счет развития технологий и того, что крупные бренды и команды развивают инновации для массовых потребителей.

Направление «гео» в ассистентах — одно из ключевых. Например, согласно исследованиям, потребность в голосовом помощнике в авто возникает на скоростях выше 60 км/ч, когда нужно не отвлекаясь выполнить какое-то действие — перестроить маршрут, найти АЗС по пути и тд. Поэтому множество автомобилей уже имеют голосовых помощников. Также ассистент призван помогать быстрее проводить рутинные операции. Дать команду: «Поехали на работу», — или: «Построй маршрут до дома», —можно, не используя рук, не отвлекаясь на интерфейс карт.

Я думаю, со временем ассистент будет отвечать на все более комплексные запросы (именно этому мы его и учили). «Найди шиномонтаж по пути домой с шинами такой-то марки с хорошими отзывами», — ассистент уже вскоре будет в состоянии выполнять такие команды.

В дальнейшем все большее количество ежедневных задач можно будет делегировать ассистенту. ИИ, большие языковые модели (LLM, large language models) будут очень сильно развиваться. Голосовые помощники будут ускорять повседневные задачи. ИИ, большие языковые модели в широком понимании выведут на новый уровень сферы копирайтинга, дизайна и прочих видов творчества. Таким способом технологии станут еще больше упрощать и дополнять жизнь общества.

— Какие у вас планы в направлении разработки голосовых ассистентов?

— Мне интересно объединить как можно больше задач внутрь наших приложений и голосового помощника, создавать новые сегменты его применения. Сейчас мы начали заниматься lifestyle гео-сервисами, то есть, хотим научить ассистента помогать планировать досуг наших пользователей. В больших городах мест и развлечений иногда слишком много, и человеку трудно выбрать что-то для себя. В небольших городах мероприятий меньше, но сложнее выбрать качественные. Моя основная идея — сделать так, чтобы ассистент отвечал на запросы типа: «Найди ресторан недалеко от метро Ленинский проспект, где будет не очень дорого, тихая атмосфера, подойдет для свидания, и в меню есть пицца или итальянская кухня». Или: «Помоги спланировать субботу с семьей, хотим сходить в цирк».

Планирую сделать, чтобы через ассистента можно было купить билеты, забронировать столик и прочее. Banking и lifestyle сервисы отлично сочетаются, у нас есть партнеры 2ГИС и Афиша, с помощью которых мы способны обогатить ассистента данными и давать точные и полные ответы. Также думаю о разработке бесконтактных заправок. В целом, хочу формировать у наших пользователей привычку применять голосового помощника, ведь это делает повседневную жизнь более комфортной.