Новая модель Gemini 2.0 Flash Thinking, представленная Google AI Studio 21 января, продемонстрировала впечатляющие результаты, набрав 73,3% на математическом тесте AIME и 74,2% на GPQA Diamond, оценивающем научные знания.
Модель способна обрабатывать до миллиона токенов текста — в пять раз больше, чем o1 Pro от OpenAI — при сохранении высокой скорости обработки. Благодаря увеличенному окну контекста она может одновременно анализировать несколько научных работ или обширные наборы данных, что упрощает работу с большими объемами информации. Один из пользователей попросил Gemini 2.0 Flash Thinking сплести вместе религиозные и философские тексты и извлечь из них уникальные идеи. В общей сложности ИИ обработал 970 000 токенов.
Релиз этой модели совпал с важным этапом в развитии индустрии искусственного интеллекта. Недавно компания OpenAI представила модель o3, которая показала результат 87,7% на тесте GPQA Diamond. Тем не менее, решение Google сделать свою модель бесплатной на этапе бета-тестирования (с лимитами на использование) может привлечь разработчиков и компании, заинтересованные в альтернативах платной подписке OpenAI за $200.
У Gemini 2.0 Flash Thinking есть встроенная функция исполнения кода, что позволяет разработчикам запускать и тестировать алгоритмы прямо внутри системы. Эта возможность, наряду с усовершенствованными механизмами предотвращения противоречий, делает инструмент полезным как для научных исследований, так и для коммерческого использования.
Модель уже лидирует в рейтинге Chatbot Arena, авторитетном показателе производительности ИИ, в таких категориях, как сложные запросы, программирование и генерация текстов. Но такие результаты хотя и ценны, не всегда полностью отражают возможности практического применения. Задача Google — убедить корпоративных клиентов в конкурентоспособности бесплатной версии по сравнению с платными решениями.
В условиях обостряющейся конкуренции в сфере искусственного интеллекта Google меняет стратегию, делая ставку на сочетание передовых возможностей с доступностью своих моделей. Важным элементом этой стратегии становится стремление к прозрачности: в отличие от традиционных «черных ящиков», Gemini 2.0 Flash Thinking показывает пользователям, как именно она приходит к выводам, что значительно упрощает их проверку. По мнению экспертов, такой подход может помочь развеять опасения относительно надежности ИИ. Удастся ли Google благодаря этому сократить разрыв с OpenAI, покажет время.