Новая компактная языковая модель Gemma 2 2B от Google превосходит GPT 3.5 Turbo

Кейсы

Екатерина Шемякинская2 августа 2024 г., 10:20

Екатерина Шемякинская2 августа 2024 г., 10:20

Google представила Gemma 2 2B — компактную, но мощную модель искусственного интеллекта, которая может составить конкуренцию лидерам отрасли, несмотря на небольшой размер. Новая языковая модель содержит всего 2,6 млрд параметров, но демонстрирует производительность на уровне или даже выше гораздо более крупных аналогов, включая GPT-3.5 и Mistral AI Mixtral 8×7B. Благодаря своей компактности и производительности Gemma 2 2B подойдет для мобильным приложений. Этот релиз свидетельствует о том, что отрасль движется в сторону создания более энергоэффективных и доступных моделей ИИ.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Gemma 2 2B представляет собой шаг вперед в создании доступных ИИ-систем. Благодаря компактному размеру модель особенно подходит для встроенных приложений, что может повлиять на мобильный ИИ и периферийные вычисления. Как пишет Google, Gemma 2 2B обеспечивает лучшую в своем классе производительность и может работать на широком спектре оборудования.

Почему США, Китаю и России важно первыми установить на Луне атомный реактор

В ходе независимого тестирования, проведенного исследовательской организацией LMSYS, Gemma 2 2B набрала 1130 баллов. Это немного выше, чем у моделей GPT-3.5-Turbo-0613 (1117) и Mixtral-8×7B (1114), хотя у них параметров в десять раз больше. На бенчмарках MMLU и MBPP Gemma 2 2B набрала 56,1 и 36,6 баллов соответственно, что свидетельствует о существенном улучшении ее языковых и программистских навыков по сравнению с предыдущей версией.

Google обучил Gemma 2 2B на массивном наборе данных из 2 трлн токенов, используя собственные ИИ-ускорители TPU v5e. Поддержка нескольких языков расширяют потенциал модели для применения в глобальных приложениях.

Разработка модели Gemma 2 2B подчеркивает важность методов сжатия и дистилляции моделей. Эффективно передавая знания из больших моделей в меньшие, исследователи способствуют созданию более доступных инструментов искусственного интеллекта без потери производительности. Такой подход не только снижает вычислительные затраты, но и решает проблемы, связанные с экологическим воздействием обучения и эксплуатации крупных языковых моделей.

Google также открыла исходный код Gemma 2 2B. Исследователи и разработчики могут получить доступ к модели через платформу Hugging Face с использованием интерфейса Gradio. Модель совместима с различными фреймворками, включая PyTorch и TensorFlow.

Эти достижения ставят под сомнение господствующую парадигму в области разработки искусственного интеллекта, согласно которой более крупные модели неизбежно превосходят меньшие. Тщательно разработанные методы обучения, оптимизированная архитектура и качественные обучающие данные способны компенсировать недостаток масштаба модели. Успех Gemma 2 2B может изменить направление исследований, сместив фокус с гонки за увеличением размера моделей на совершенствование более компактных и энергоэффективных решений, способных работать на потребительских устройствах. Это также шаг к демократизации технологий ИИ и расширению границ приложений искусственного интеллекта за пределы мощных суперкомпьютеров.

Также по теме

Кейсы

Авито Работа: Дмитрий Пучков рассказал о прогнозах влияния ChatGPT на рынок труда

Кейсы

Профессия вместо кредита: как работает карьерно-образовательная экосистема Synergy Academy

Кейсы

«Двухголовые» морские ветрогенераторы выдерживают ветер до 260 км/ч

Кейсы

Найдена бактерия, поедающая вечные химикаты

Новости СМИ2