Новая ИИ-модель Google ускоряет генерацию текста в 4 раза

Кейсы

Екатерина Шемякинская11 июня, 08:55

Екатерина Шемякинская11 июня, 08:55

Google представила DiffusionGemma — экспериментальную языковую модель, которая генерирует текст с помощью диффузии, а не последовательно, токен за токеном. Модель формирует блок из 256 токенов параллельно и уточняет их за несколько проходов. Благодаря этому генерация на потребительских видеокартах ускоряется до четырёх раз, а ресурсы GPU используются эффективнее, с меньшей зависимостью от пропускной способности памяти.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Большинство языковых моделей используют авторегрессионный подход, то есть генерируют текст токен за токеном, слева направо. В облаке такая последовательная генерация эффективна — серверы объединяют тысячи запросов, чтобы равномерно нагрузить оборудование. Но при локальном запуске для одного пользователя процессор «простаивает», ожидая следующего токена. DiffusionGemma решает эту проблему, используя принцип, знакомый по генераторам изображений. Подобно тому как нейросети постепенно превращают визуальный шум в чёткую картинку, модель формирует блок из 256 токенов параллельно и уточняет их за несколько проходов. В Google сравнивают это с переходом от пишущей машинки к печатному станку.

Ученые создали квантовую вселенную, в которой время возникло само по себе

Подход основан на исследованиях Google в области Gemini Diffusion и построен на базе семейства моделей Gemma 4. В основе лежит архитектура «Смесь экспертов» с 26 млрд параметров, из которых активируются только 3,8 млрд. Модель требует 18 ГБ видеопамяти, что позволяет запускать её на современных потребительских GPU.

Новая архитектура обеспечивает производительность свыше 1000 токенов в секунду на ускорителе NVIDIA H100 и более 700 токенов в секунду на потребительской видеокарте NVIDIA GeForce RTX 5090. Google позиционирует модель как решение для сценариев, где критически важна низкая задержка, например, интерактивного редактирования текста.

Ещё одной особенностью DiffusionGemma стало двунаправленное внимание. Поскольку текст создаётся параллельно, каждый токен может учитывать контекст всего фрагмента, включая ещё не сгенерированные части. Поэтому модель особенно полезна для автозаполнения кода, а также работы с математическими выражениями и биологическими последовательностями, где важна взаимосвязь между всеми элементами текста.

Для демонстрации возможностей Google адаптировала модель для решения головоломок судоку. Такие задачи сложны для традиционных авторегрессионных моделей, поскольку правильность ранних решений часто зависит от информации, появляющейся позже. Диффузионный метод позволяет учитывать весь контекст одновременно и корректировать промежуточные результаты по мере работы.

Google подчёркивает, что новинка остаётся экспериментальной: стандартные модели Gemma 4 по-прежнему обеспечивают более качественные ответы и рекомендуются для производственного использования. Модель уже опубликована под лицензией Apache 2.0 на платформе Hugging Face и поддерживается популярными инструментами для локального развёртывания ИИ.

Также по теме

Кейсы

У Rocket Lab впервые получилось вернуть ракету-носитель

Кейсы

В Техасе напечатают жилье для бездомных

Кейсы

Новые ИИ-модели Google могут распознавать эмоции

Кейсы

SkyFly открыл предзаказы на двухместный eVTOL с запасом хода 160 км

Новости СМИ2