«Модели глубокого обучения, такие как GPT-4, обладают беспрецедентными способностями, но требуют громадных вычислительных ресурсов. Наш протокол позволяет пользователям использовать эти мощные модели, не жертвуя приватностью данных или проприетарной природой самих моделей», — сказал Кфир Сулимани из Массачусетского технологического института, ведущий автор исследования.
Условия облачных вычислений, которые стал предметом исследования ученых, характеризуются наличием двух участников: клиента, обладающего конфиденциальными данными, и центрального сервера, контролирующего модель глубокого обучения. Клиент хочет использовать модель для составления прогноза, не раскрывая приватную информацию, которую пересылает на сервер. А сервер не хочет раскрыть запатентованную информацию о модели. Таким образом, обеим сторонам есть что скрывать.
Решением стало использование квантовых свойств света, пишет MIT News. Сервер кодирует определенные параметры нейросети — вес узлов — в оптическом поле при помощи лазеров и отправляет эту информацию клиенту, который совершает операции с пользовательскими данными. Данные остаются защищены от сервера. В то же время, протокол безопасности позволяет клиенту измерить только один результат, и это не дает клиенту скопировать вес узлов — мешает квантовая природа света. Как только клиент передает результат вычислений на следующий уровень, протокол отменяет предыдущий. Информация о модели остается защищенной.
«Вместо того чтобы измерять весь входящий свет сервера, клиент измеряет только тот, который необходим для запуска нейросети и отправки результата на следующий уровень. Затем клиент посылает остаточный свет назад, в сервер для проверки безопасности», — пояснил Сулимани.
Согласно утверждению о невозможности создания идеальной копии неизвестного квантового состояния (или теореме о запрете клонирования), клиент неизбежно вносит крошечные погрешности в модель, измеряя ее результат. Когда сервер получает свет от клиента, он оценивает эти погрешности и определяет, произошла ли утечка. Сам свет при этом не раскрывает данные клиента.
Испытания технологии показали, что система гарантирует безопасность сервера и клиента, позволяя при этом нейросети достичь 96% точности.
Учитывая стоимость и низкую скорость обучения больших языковых моделей (БЯМ), исследователи и разработчики активно обсуждают, в состоянии ли увеличение циклов вычислений повысить производительность БЯМ без необходимости в их переобучении. В новой статье специалисты из DeepMind и Калифорнийского университета предложили новые способы повышения производительности БЯМ путем стратегического распределения ресурсов.