ИИ-модели обучены отказывать выполнять задачи, способные навредить, вроде фишинга или взлома сайта. Однако их защитные механизмы исходят из того, что агент действует в реальном мире. Если убедить браузер, что он находится не в реальности, а в вымышленной игровой логике, где «правила отменены», агент «забывает» о мерах предосторожности при выполнении действий.
Чтобы продемонстрировать атаку, исследователи создали поддельную страницу с игрой-головоломкой в стиле BioShock. С первых шагов она приучала ИИ к тому, что в этом «мире» правильными считаются заведомо неверные ответы, например, что 2+2=5. Как только агент соглашался с этой искаженной логикой и переставал сверяться с реальностью, ему давали финальное задание — скопировать текст с определенной страницы. На деле эта страница вела на рабочий GitHub-репозиторий жертвы. Из шести протестированных ИИ-агентов ни один не распознал в этом нарушение правил безопасности — все послушно передали злоумышленнику учетные данные для SSH-доступа.
Уязвимости оказались подвержены сразу несколько продуктов: ChatGPT Atlas от OpenAI, браузер Comet от Perplexity, Fellou, Genspark Browser, Sigma Browser, а также плагин Claude для Chrome от Anthropic. Исследователи заявили, что уведомили всех перечисленных поставщиков о результатах тестирования.
В LayerX подчеркивают, что в их экспериментальной среде фигурировал безобидный текстовый файл, но в реальной атаке подобное перенаправление могло бы указывать на любую часть сессии браузера — открытые вкладки, авторизованные репозитории или внутренние корпоративные инструменты.
Исследователи предлагают поставщикам сразу несколько мер защиты: запрашивать явное подтверждение пользователя перед любым обращением к данным в почте, репозиториях или других защищённых системах; учить агентов распознавать формулировки, сигнализирующие о попытке подменить контекст вроде «здесь правила не действуют»; и по умолчанию ограничивать область действия агента, чтобы победа в игре или выполнение любого другого сценария не давали автоматического доступа к чувствительным данным.
Пользователям советуют следить, к каким сессиям и вкладкам у ИИ-браузера есть доступ, — агент может использовать любую активную авторизованную сессию. Как только задача выполнена, доступ лучше сразу отозвать.

