Hitech logo

Кейсы

Google представила VaultGemma — языковую модель с защитой личных данных

TODO:
Екатерина ШемякинскаяСегодня, 10:32 AM

Компании, создающие большие языковые модели, всё чаще сталкиваются с проблемой нехватки качественных данных и риском «запоминания» конфиденциальной информации. Чтобы этого избежать, исследователи Google разработали VaultGemma — открытую модель с интегрированными методами дифференциальной приватности. Эта технология снижает риск случайного раскрытия личных сведений и материалов, защищенных авторским правом. При этом VaultGemma работает не хуже моделей аналогичного размера.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

У больших языковых моделей (LLM) выходные данные недетерминированы, то есть невозможно точно предсказать, что они сгенерируют. Даже при одинаковых запросах результаты могут отличаться. При этом модели иногда воспроизводят фрагменты информации из обучающих датасетов. Если те содержат личные сведения пользователей, это может нарушить конфиденциальность. Аналогично, если в обучающий набор попадают материалы, защищённые авторским правом, они могут появиться в ответах модели. Это головная боль для разработчиков.

Дифференциальная приватность решает эту проблему добавлением калиброванного «шума» на этапе обучения. Благодаря этому модель с меньшей вероятностью «запомнит» конкретные данные. Вместе с тем, такой подход может снижать точность и увеличивать требования к вычислительным ресурсам. До сих пор было мало изучено, как дифференциальная приватность влияет на масштабирование и производительность моделей.

Команда Google Research провела эксперименты с различными размерами моделей и уровнями шума, чтобы изучить законы масштабирования конфиденциальности. Выяснилось, что эффективность модели зависит от соотношения объема шума и размера пакета данных: слишком много шума снижает качество, если это не компенсируется большим объемом вычислений или данных. Эти результаты помогают разработчикам находить баланс между конфиденциальностью, вычислительным бюджетом и качеством модели.

На основе этих исследований была создана модель VaultGemma, основанная на Gemma 2, которая насчитывает 1 млрд параметров. Модель использует дифференциальную приватность для снижения риска раскрытия информации, при этом её производительность сопоставима с обычными моделями аналогичного размера.

Тесты показали, что VaultGemma хорошо справляется с обычными задачами ИИ. Дифференциальная приватность может быть полезна для сервисов, обрабатывающих персональные или корпоративные данные, где конфиденциальность критически важна.

VaultGemma уже доступна для скачивания на Hugging Face и Kaggle. Модель имеет открытые веса, но исходный код открыт не полностью. Пользователи могут модифицировать и распространять модель, соблюдая лицензию Gemma.