На конференции была продемонстрирована ранняя версия Project Astra, но конечная цель — создать мультимодального ИИ-ассистента, который будет выполнять роль помощника, наблюдать за обстановкой и мгновенно помогать с повседневными задачами и вопросами. Идея аналогична GPT-4o, которую накануне представила OpenAI. Но GPT-4o начнет внедряться уже в ближайшие недели для подписчиков ChatGPT Plus, а Google все еще работает над Project Astra и не сообщила, когда будет запущен ее полноценный ИИ-агент. Было сказано лишь о том, что некоторые функции этого проекта появятся в ассистенте Gemini уже в этом году.
В одном из демонстрационных видеороликов прототип агента Project Astra, работающий на смартфоне Pixel, смог идентифицировать объекты, описать их конкретные компоненты и понять код, написанный на доске. Он даже определял окрестности, глядя в видоискатель камеры, и показал признаки памяти, сообщив пользователю, где тот хранит свои очки. Во второй демонстрации Project Astra предложил улучшения для архитектуры системы, проецируя результаты поверх реального мира в режиме реального времени с помощью специальных очков.
В отличие от OpenAI, которая обучила GPT-4o по принципу сквозного обучения, используя для этого текст, изображения и звук, Google использует для Project Astra несколько отдельных моделей.
Подход OpenAI позволяет обрабатывать все входные и выходные данные, предоставляя ответы в среднем за 320 миллисекунд. Google пока не сообщает конкретных данных о времени отклика Astra, но предполагается, что задержка, если она есть, будет уменьшаться по мере дальнейшей разработки. Также остается неясным, будут ли агенты Project Astra обладать таким же эмоциональным диапазоном, как GPT-4o.
Astra — лишь один из многих анонсов Gemini на мероприятии I/O в этом году. Еще была представлена новая модель под названием Gemini 1.5 Flash — столь же мощная, как и Gemini Pro, но намного быстрее. Она подойдет, например, для ответа клиентам в режиме реального времени. Контекстное окно для Gemini Pro теперь увеличено вдвое, до 2 млн токенов. Google также внедряет новейшую языковую модель Gemini 1.5 Pro в боковую панель Документов, Таблиц, Презентаций, Диска и Gmail. Например, агент сможет писать электронные письма на основе информации из документов пользователя. ИИ-помощник Gemini Nano будет встроен в браузер Chrome, а также ляжет в основу новой функции защиты для Android, которая поможет пользователям распознать телефонное мошенничество. Появилась опция персонализации Gems, которая позволяет создавать собственные версии Gemini с разными характерами. Благодаря этому можно приспособить чат-боты под конкретные задачи. Функция Gemini Live обеспечит двустороннюю голосовую беседу с чат-ботом, возможности интеллектуального помощника и машинного зрения.
В сервисах Google также появилось много функций. Google Lens теперь предлагает поиск не только по изображениям, но и по видео.
Еще одна новая опция Ask Photos использует Gemini для анализа изображений в библиотеке Google Фото и ответов на вопросы пользователя. Так, генеральный директор Сундар Пичаи спросил у приложения, какой у него номер авто. Ask Photos проанализировала его фото, нашла нужный номер и показала машину. Circle to Search на Android теперь может помочь учащимся научиться решать словесные математические задачи благодаря новой модели Google LearnLM. Кроме того, Google внедряет ИИ практически во все этапы процесса поиска.
Google также представила ответ Sora от OpenAI. Модель под названием Veo может генерировать видео с разрешением 1080p продолжительностью более минуты в самых разных визуальных и кинематографических стилях. Пользователи могут регулировать желаемый результат, используя текстовые, графические или видеоподсказки. Google утверждает, что полученные ролики «более последовательные и связные».
Также обновление получила модель для генерации изображений из текста — Imagen 3. Новинка обещает невероятную детализацию, улучшенное понимание естественного языка и более качественную отрисовку текста.
Google также расширяет свою технологию нанесения водяных знаков и обнаружения контента искусственного интеллекта SynthID. SynthID теперь может вставлять неслышимые водяные знаки в музыку, написанную искусственным интеллектом, в частности, моделью Lyria от DeepMind; и в контент, созданный с помощью нового видеогенератора Veo.