Hitech logo

Кейсы

Новая компактная языковая модель Gemma 2 2B от Google превосходит GPT 3.5 Turbo

TODO:
Екатерина Шемякинская2 августа, 10:20

Google представила Gemma 2 2B — компактную, но мощную модель искусственного интеллекта, которая может составить конкуренцию лидерам отрасли, несмотря на небольшой размер. Новая языковая модель содержит всего 2,6 млрд параметров, но демонстрирует производительность на уровне или даже выше гораздо более крупных аналогов, включая GPT-3.5 и Mistral AI Mixtral 8×7B. Благодаря своей компактности и производительности Gemma 2 2B подойдет для мобильным приложений. Этот релиз свидетельствует о том, что отрасль движется в сторону создания более энергоэффективных и доступных моделей ИИ.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Gemma 2 2B представляет собой шаг вперед в создании доступных ИИ-систем. Благодаря компактному размеру модель особенно подходит для встроенных приложений, что может повлиять на мобильный ИИ и периферийные вычисления. Как пишет Google, Gemma 2 2B обеспечивает лучшую в своем классе производительность и может работать на широком спектре оборудования.

В ходе независимого тестирования, проведенного исследовательской организацией LMSYS, Gemma 2 2B набрала 1130 баллов. Это немного выше, чем у моделей GPT-3.5-Turbo-0613 (1117) и Mixtral-8×7B (1114), хотя у них параметров в десять раз больше. На бенчмарках MMLU и MBPP Gemma 2 2B набрала 56,1 и 36,6 баллов соответственно, что свидетельствует о существенном улучшении ее языковых и программистских навыков по сравнению с предыдущей версией.

Google обучил Gemma 2 2B на массивном наборе данных из 2 трлн токенов, используя собственные ИИ-ускорители TPU v5e. Поддержка нескольких языков расширяют потенциал модели для применения в глобальных приложениях.

Разработка модели Gemma 2 2B подчеркивает важность методов сжатия и дистилляции моделей. Эффективно передавая знания из больших моделей в меньшие, исследователи способствуют созданию более доступных инструментов искусственного интеллекта без потери производительности. Такой подход не только снижает вычислительные затраты, но и решает проблемы, связанные с экологическим воздействием обучения и эксплуатации крупных языковых моделей.

Google также открыла исходный код Gemma 2 2B. Исследователи и разработчики могут получить доступ к модели через платформу Hugging Face с использованием интерфейса Gradio. Модель совместима с различными фреймворками, включая PyTorch и TensorFlow.

Эти достижения ставят под сомнение господствующую парадигму в области разработки искусственного интеллекта, согласно которой более крупные модели неизбежно превосходят меньшие. Тщательно разработанные методы обучения, оптимизированная архитектура и качественные обучающие данные способны компенсировать недостаток масштаба модели. Успех Gemma 2 2B может изменить направление исследований, сместив фокус с гонки за увеличением размера моделей на совершенствование более компактных и энергоэффективных решений, способных работать на потребительских устройствах. Это также шаг к демократизации технологий ИИ и расширению границ приложений искусственного интеллекта за пределы мощных суперкомпьютеров.