Большинство языковых моделей используют авторегрессионный подход, то есть генерируют текст токен за токеном, слева направо. В облаке такая последовательная генерация эффективна — серверы объединяют тысячи запросов, чтобы равномерно нагрузить оборудование. Но при локальном запуске для одного пользователя процессор «простаивает», ожидая следующего токена. DiffusionGemma решает эту проблему, используя принцип, знакомый по генераторам изображений. Подобно тому как нейросети постепенно превращают визуальный шум в чёткую картинку, модель формирует блок из 256 токенов параллельно и уточняет их за несколько проходов. В Google сравнивают это с переходом от пишущей машинки к печатному станку.
Подход основан на исследованиях Google в области Gemini Diffusion и построен на базе семейства моделей Gemma 4. В основе лежит архитектура «Смесь экспертов» с 26 млрд параметров, из которых активируются только 3,8 млрд. Модель требует 18 ГБ видеопамяти, что позволяет запускать её на современных потребительских GPU.
Новая архитектура обеспечивает производительность свыше 1000 токенов в секунду на ускорителе NVIDIA H100 и более 700 токенов в секунду на потребительской видеокарте NVIDIA GeForce RTX 5090. Google позиционирует модель как решение для сценариев, где критически важна низкая задержка, например, интерактивного редактирования текста.
Ещё одной особенностью DiffusionGemma стало двунаправленное внимание. Поскольку текст создаётся параллельно, каждый токен может учитывать контекст всего фрагмента, включая ещё не сгенерированные части. Поэтому модель особенно полезна для автозаполнения кода, а также работы с математическими выражениями и биологическими последовательностями, где важна взаимосвязь между всеми элементами текста.
Для демонстрации возможностей Google адаптировала модель для решения головоломок судоку. Такие задачи сложны для традиционных авторегрессионных моделей, поскольку правильность ранних решений часто зависит от информации, появляющейся позже. Диффузионный метод позволяет учитывать весь контекст одновременно и корректировать промежуточные результаты по мере работы.
Google подчёркивает, что новинка остаётся экспериментальной: стандартные модели Gemma 4 по-прежнему обеспечивают более качественные ответы и рекомендуются для производственного использования. Модель уже опубликована под лицензией Apache 2.0 на платформе Hugging Face и поддерживается популярными инструментами для локального развёртывания ИИ.

