Hitech logo

Кейсы

Google запустила голосового ИИ-помощника Gemini Live

TODO:
Екатерина Смирнова14 августа, 11:05

Google некоторое время отставал в гонке генеративного ИИ от таких конкурентов, как Meta, OpenAI, Anthropic и Mistral. Но теперь поисковый гигант готов наверстать упущенное. Компания представила Gemini Live — голосовой режим, встроенный в чат-бота Gemini. Эта функция, доступная для подписчиков Gemini Advanced, позволяет пользователям вести непринужденные беседы с ИИ, получать ответы с реалистичной интонацией и даже перебивать его. Пока функция доступна только в мобильном приложении и на английском языке. Похожий голосовой режим весной представила OpenAI, но из-за проблем с безопасностью массовый запуск был отложен.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Gemini Live доступен на английском языке в приложении Google Gemini для устройств Android по подписке Gemini Advanced стоимостью $19,99 в месяц. Версия для iOS и поддержка других языков появятся в течение следующих недель.

Google позиционирует Gemini Live как инструмент для свободного и естественного общения, который подходит для мозгового штурма, подготовки к важным разговорам или просто непринужденной беседы на различные темы. Gemini Live реагирует и адаптируется в режиме реального времени. Взаимодействовать с ИИ-помощником можно даже при заблокированном экране или работе других приложений на устройстве.

В мае OpenAI представила свой «расширенный голосовой режим» (Advanced Voice Mode) для ChatGPT, открыто сравнив его с интеллектуальной операционной системой из фильма «Она». Компания позиционировала эту функцию как прорыв в области взаимодействия с ИИ, но затем решила отложить ее массовый запуск. Лишь в конце прошлого месяца началось постепенное внедрение опции для ограниченного круга пользователей, участвующих в альфа-тестировании.

Несмотря на то, что OpenAI первой продемонстрировала подобную функцию, Google планирует сделать ее доступной раньше и для большего числа людей. Более 3 млрд пользователей Android и 2,2 млрд пользователей iOS обеспечивают компании преимущество в охвате аудитории, по сравнению с ChatGPT. Для сравнения, у чат-бота OpenAI около 180 млн пользователей.

Одной из причин, по которой OpenAI решила повременить с запуском расширенного голосового режима ChatGPT, стало то, что во время внутренних тестов было выявлено странное и потенциально опасное поведение. Например, чат-бот копировал голос пользователя без его разрешения. Это могло бы послужить инструментом для мошенничества или других злонамеренных действий. Как Google решает проблему потенциального вреда, пока неизвестно.

Google также объявила, что Gemini теперь полностью интегрирован в пользовательский интерфейс Android, предоставляя более контекстно-зависимую помощь, адаптированную к устройству. Пользователи могут активировать Gemini долгим нажатием кнопки питания или фразой «Привет, Google». Эта интеграция позволяет Gemini взаимодействовать с контентом на экране, например, предоставлять информацию о видео на YouTube или создавать список ресторанов из трэвел-блога для добавления прямо в Google Maps.