В начале декабря Google собирались представить модель Gemini 1.0 в виде серии мероприятий в Калифорнии, Нью-Йорке и Вашингтоне, но потом решили отложить запуск до января. Разработчиков не устроило, как модель отвечает на неанглоязычные запросы. Поддержка как можно большего количества языков — первостепенная задача нейросети, которая стремится обогнать GPT-4. По данным инсайдеров, модель уже почти соответствует заявленному стандарту.
Генеральный директор Сундар Пичаи объявил на конференции Google I/O в мае 2023 года, что Gemini изначально разрабатывается как мультимодальная система. Это значит, что она сможет воспринимать текст, изображения и другие типы данных, чтобы имитировать человеческие способности к общению. В будущем ей добавят такие возможности, как память и планирование, чтобы она сопровождала пользователей в путешествиях, работе и отдыхе. Например, она сможет продумать тайминг мероприятия или месячный бюджет на покупку продуктов.
Модель также сможет заниматься фактчекингом и проверять надёжность информации, найденной в интернете, разделять источники в зависимости от их значимости. Например, информацию из журнала The Lancet модель будет считать более достоверной, чем ту, что нашла на сайте частной медицинской клиники.
Джеффри Дин, главный учёный Google, упомянул, что Gemini использует новую ИИ-инфраструктуру Pathways для масштабирования обучения на разнообразных наборах данных. В 2024 года она может стать самой крупной из больших языковых моделей на рынке, обогнав даже GPT-4 с 175 миллиардами параметров.
Сундар Пичаи также сказал в интервью, что такие ИИ-помощники как Bard являются лишь ступенью к по-настоящему развитым чат-ботам, которые будут сопровождать людей как ассистенты руководителя. По его мнению, Gemini, которая сможет обрабатывать текст и изображения, заставит остальные модели померкнуть на ее фоне.