Gemini Live доступен на английском языке в приложении Google Gemini для устройств Android по подписке Gemini Advanced стоимостью $19,99 в месяц. Версия для iOS и поддержка других языков появятся в течение следующих недель.
Google позиционирует Gemini Live как инструмент для свободного и естественного общения, который подходит для мозгового штурма, подготовки к важным разговорам или просто непринужденной беседы на различные темы. Gemini Live реагирует и адаптируется в режиме реального времени. Взаимодействовать с ИИ-помощником можно даже при заблокированном экране или работе других приложений на устройстве.
В мае OpenAI представила свой «расширенный голосовой режим» (Advanced Voice Mode) для ChatGPT, открыто сравнив его с интеллектуальной операционной системой из фильма «Она». Компания позиционировала эту функцию как прорыв в области взаимодействия с ИИ, но затем решила отложить ее массовый запуск. Лишь в конце прошлого месяца началось постепенное внедрение опции для ограниченного круга пользователей, участвующих в альфа-тестировании.
Несмотря на то, что OpenAI первой продемонстрировала подобную функцию, Google планирует сделать ее доступной раньше и для большего числа людей. Более 3 млрд пользователей Android и 2,2 млрд пользователей iOS обеспечивают компании преимущество в охвате аудитории, по сравнению с ChatGPT. Для сравнения, у чат-бота OpenAI около 180 млн пользователей.
Одной из причин, по которой OpenAI решила повременить с запуском расширенного голосового режима ChatGPT, стало то, что во время внутренних тестов было выявлено странное и потенциально опасное поведение. Например, чат-бот копировал голос пользователя без его разрешения. Это могло бы послужить инструментом для мошенничества или других злонамеренных действий. Как Google решает проблему потенциального вреда, пока неизвестно.
Google также объявила, что Gemini теперь полностью интегрирован в пользовательский интерфейс Android, предоставляя более контекстно-зависимую помощь, адаптированную к устройству. Пользователи могут активировать Gemini долгим нажатием кнопки питания или фразой «Привет, Google». Эта интеграция позволяет Gemini взаимодействовать с контентом на экране, например, предоставлять информацию о видео на YouTube или создавать список ресторанов из трэвел-блога для добавления прямо в Google Maps.