Исследователи провели серию экспериментов, чтобы оценить возможности современных больших языковых моделей (LLM) в деанонимизации пользователей социальных сетей. Для этого они собрали несколько наборов данных из публично доступных источников, включая профили и сообщения на Hacker News, LinkedIn, а также комментарии на Reddit и данные Netflix, содержащие микроидентификаторы, такие как индивидуальные предпочтения и рекомендации. Прямые идентификаторы пользователей были удалены для соблюдения конфиденциальности.
В первом эксперименте использовались анкеты 125 участников о повседневном использовании ИИ. Модель извлекала из ответов ключевые признаки (образование, род деятельности, инструменты и местоположение) и автоматически сопоставляла их с публичными профилями в интернете, что позволило точно идентифицировать 7% участников.
Во втором эксперименте исследователи проанализировали комментарии пользователей Reddit на r/movies и пяти других тематических сабреддитах. Модель сопоставляла обсуждаемые фильмы с другими доступными данными. Чем больше публикаций о фильмах оставлял пользователь, тем выше вероятность его идентификации. Так, пользователи, которые обсуждали десять и более фильмов, идентифицировались с точностью до 90% в 48,1% случаев и до 99% в 17% случаев.
В третьем эксперименте модель проверяли на большом и шумном наборе данных. К 5000 реальных профилей добавили 5000 «отвлекающих» аккаунтов и сравнили эффективность с классической атакой, основанной на датасете Netflix Prize. Результаты показали, что LLM работают гораздо лучше — их точность снижается плавнее, а полнота значительно выше, особенно при дополнительных шагах «Рассуждение» и «Калибровка». Даже простая LLM‑атака смогла выявить значительное число пользователей, превосходя традиционные ресурсоемкие методы.
Последствия для конфиденциальности очевидны: псевдонимы, долгое время служившие мерой защиты частной жизни, больше не гарантируют безопасность.
Пользователи, публикующие анонимные сообщения, рискуют раскрытием личных данных, возможным преследованием, отслеживанием местоположения, рода занятий и интересов. Технологии деанонимизации могут использоваться государствами для выявления критиков, корпорациями — для целевой рекламы, а злоумышленниками — для персонализированных мошеннических схем.
Исследователи предлагают несколько мер защиты: ограничение скорости доступа к пользовательским данным через API, мониторинг автоматического сбора информации, создание встроенных механизмов защиты в LLM, а также регулярное удаление старых публикаций.

