Hitech logo

Кейсы

ИИ-модели могут деанонимизировать пользователей с высокой точностью

TODO:
Екатерина ШемякинскаяСегодня, 12:57 PM

Исследователи предупредили о новой угрозе конфиденциальности в интернете. Большие языковые модели способны идентифицировать анонимных пользователей в социальных сетях, даже если те скрывают свои данные. ИИ может сопоставлять анонимные аккаунты с реальными людьми значительно эффективнее классических методов деанонимизации. Количество пользователей, раскрытых ИИ в ходе экспериментов, достигала 68%, а точность — до 90%.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Исследователи провели серию экспериментов, чтобы оценить возможности современных больших языковых моделей (LLM) в деанонимизации пользователей социальных сетей. Для этого они собрали несколько наборов данных из публично доступных источников, включая профили и сообщения на Hacker News, LinkedIn, а также комментарии на Reddit и данные Netflix, содержащие микроидентификаторы, такие как индивидуальные предпочтения и рекомендации. Прямые идентификаторы пользователей были удалены для соблюдения конфиденциальности.

В первом эксперименте использовались анкеты 125 участников о повседневном использовании ИИ. Модель извлекала из ответов ключевые признаки (образование, род деятельности, инструменты и местоположение) и автоматически сопоставляла их с публичными профилями в интернете, что позволило точно идентифицировать 7% участников.

Во втором эксперименте исследователи проанализировали комментарии пользователей Reddit на r/movies и пяти других тематических сабреддитах. Модель сопоставляла обсуждаемые фильмы с другими доступными данными. Чем больше публикаций о фильмах оставлял пользователь, тем выше вероятность его идентификации. Так, пользователи, которые обсуждали десять и более фильмов, идентифицировались с точностью до 90% в 48,1% случаев и до 99% в 17% случаев.

В третьем эксперименте модель проверяли на большом и шумном наборе данных. К 5000 реальных профилей добавили 5000 «отвлекающих» аккаунтов и сравнили эффективность с классической атакой, основанной на датасете Netflix Prize. Результаты показали, что LLM работают гораздо лучше — их точность снижается плавнее, а полнота значительно выше, особенно при дополнительных шагах «Рассуждение» и «Калибровка». Даже простая LLM‑атака смогла выявить значительное число пользователей, превосходя традиционные ресурсоемкие методы.

Последствия для конфиденциальности очевидны: псевдонимы, долгое время служившие мерой защиты частной жизни, больше не гарантируют безопасность.

Пользователи, публикующие анонимные сообщения, рискуют раскрытием личных данных, возможным преследованием, отслеживанием местоположения, рода занятий и интересов. Технологии деанонимизации могут использоваться государствами для выявления критиков, корпорациями — для целевой рекламы, а злоумышленниками — для персонализированных мошеннических схем.

Исследователи предлагают несколько мер защиты: ограничение скорости доступа к пользовательским данным через API, мониторинг автоматического сбора информации, создание встроенных механизмов защиты в LLM, а также регулярное удаление старых публикаций.