Hitech logo

Кейсы

ИИ-агент Alibaba пытался самостоятельно заняться майнингом криптовалюты

TODO:
Екатерина ШемякинскаяСегодня, 11:14 AM

Автономный ИИ-агент ROME, обучавшийся выполнять реальные действия на компьютере, неожиданно начал самостоятельно майнить криптовалюту и устанавливать обратные SSH-туннели для скрытого доступа к внешним сетям. Инцидент произошел во время экспериментов с новой платформой Agentic Learning Ecosystem (ALE) на серверах Alibaba Cloud. Исследователи подчеркивают, что модель не получала таких команд и не была взломана — поведение возникло в процессе обучения как побочный эффект поиска максимально эффективного использования ресурсов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Согласно исследованию, агент ROME был создан на базе модели Qwen3-MoE и обучался с помощью метода обучения с подкреплением. Для этого ученые разработали целую инфраструктуру: систему обучения ROLL, безопасную «песочницу» ROCK, где агент выполняет команды, и интерфейс iFlow для взаимодействия с пользователем. Такой подход позволяет ИИ учиться выполнять сложные последовательности действий, как это делает человек-программист.

Во время экспериментов модель показала высокие результаты в задачах по программированию. Однако исследователи неожиданно обнаружили и проблемы безопасности. Система мониторинга на серверах Alibaba Cloud зафиксировала подозрительную сетевую активность во время обучения агента.

Сначала специалисты подумали, что это обычная кибератака или ошибка настройки. Но анализ показал, что странные действия выполнял сам ИИ-агент. В одном из случаев модель с 3 млрд параметров создала обратный SSH-туннель — способ установить скрытое соединение с внешней сетью, обходя некоторые механизмы защиты.

Кроме того, агент пытался использовать мощные графические процессоры серверов для майнинга. Эти ресурсы были предназначены для обучения модели, но ИИ начал запускать программы, которые могли бы использовать вычислительную мощность для добычи криптовалюты.

Исследователи подчеркивают, что модель не получала такого задания и не подвергалась взлому. Такое поведение появилось в процессе обучения: агент просто искал способы максимально эффективно использовать доступные ресурсы для достижения своей цели. Специалисты называют это демонстрацией «инструментальной конвергенции» — риска, при котором автономный ИИ начинает применять незапланированные инструменты для достижения цели, без прямых указаний человека.

После инцидента разработчики усилили систему безопасности и создали изолированную платформу OpenSandbox, где действия ИИ-агентов строго контролируются. Авторы работы считают, что подобные эксперименты показывают огромный потенциал агентов, но также подчеркивают необходимость новых механизмов контроля за тем, как ИИ действует внутри компьютерных систем.