Hitech logo

Кейсы

ИИ поверил, что «2+2=5» и передал пароли злоумышленнику

TODO:
Екатерина ШемякинскаяСегодня, 03:07 PM

Исследователи LayerX нашли уязвимость в ИИ-браузерах: злоумышленник может убедить агента, что тот находится не в реальности, а в игре, где правила не работают. Приняв эту логику, ИИ теряет бдительность и выполняет опасные команды — от кражи данных до установки вредоносного ПО. Уязвимость назвали BioShocking — отсылка к игре BioShock, где герой под гипнотической фразой «Будь любезен» делал то, на что никогда бы не согласился в нормальном состоянии.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

ИИ-модели обучены отказывать выполнять задачи, способные навредить, вроде фишинга или взлома сайта. Однако их защитные механизмы исходят из того, что агент действует в реальном мире. Если убедить браузер, что он находится не в реальности, а в вымышленной игровой логике, где «правила отменены», агент «забывает» о мерах предосторожности при выполнении действий.

Чтобы продемонстрировать атаку, исследователи создали поддельную страницу с игрой-головоломкой в стиле BioShock. С первых шагов она приучала ИИ к тому, что в этом «мире» правильными считаются заведомо неверные ответы, например, что 2+2=5. Как только агент соглашался с этой искаженной логикой и переставал сверяться с реальностью, ему давали финальное задание — скопировать текст с определенной страницы. На деле эта страница вела на рабочий GitHub-репозиторий жертвы. Из шести протестированных ИИ-агентов ни один не распознал в этом нарушение правил безопасности — все послушно передали злоумышленнику учетные данные для SSH-доступа.

Уязвимости оказались подвержены сразу несколько продуктов: ChatGPT Atlas от OpenAI, браузер Comet от Perplexity, Fellou, Genspark Browser, Sigma Browser, а также плагин Claude для Chrome от Anthropic. Исследователи заявили, что уведомили всех перечисленных поставщиков о результатах тестирования.

В LayerX подчеркивают, что в их экспериментальной среде фигурировал безобидный текстовый файл, но в реальной атаке подобное перенаправление могло бы указывать на любую часть сессии браузера — открытые вкладки, авторизованные репозитории или внутренние корпоративные инструменты.

Исследователи предлагают поставщикам сразу несколько мер защиты: запрашивать явное подтверждение пользователя перед любым обращением к данным в почте, репозиториях или других защищённых системах; учить агентов распознавать формулировки, сигнализирующие о попытке подменить контекст вроде «здесь правила не действуют»; и по умолчанию ограничивать область действия агента, чтобы победа в игре или выполнение любого другого сценария не давали автоматического доступа к чувствительным данным.

Пользователям советуют следить, к каким сессиям и вкладкам у ИИ-браузера есть доступ, — агент может использовать любую активную авторизованную сессию. Как только задача выполнена, доступ лучше сразу отозвать.