Hitech logo

Тренды

DeepMind предупредила о 4 критических рисках утраты контроля над ИИ

TODO:
Екатерина ШемякинскаяСегодня, 08:55 AM

Искусственный интеллект используется в бизнесе и даже в государственных структурах, хотя он всё ещё далёк от совершенства. Но что будет, если такие системы начнут работать не так, как задумано? Исследователи Google DeepMind выпустили третью версию Frontier Safety Framework — документа, который описывает основные угрозы и меры предосторожности при использовании ИИ. Среди рисков эксперты выделяют возможность использования моделей для создания вредоносного ПО, манипулирование убеждениями людей, а также появление так называемого «несогласованного ИИ», который игнорирует инструкции или действует вопреки интересам человека.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В основе системы безопасности DeepMind лежит понятие «критических уровней возможностей» (CCL). Это набор критериев, по которым оценивают, когда поведение модели может представлять опасность, например, в сфере кибербезопасности или биотехнологий. DeepMind не только перечисляет такие сценарии, но и предлагает способы их выявления и устранения.

Одним из ключевых рисков специалисты называют утечку весовых коэффициентов моделей. Если злоумышленники получат доступ к весам, они смогут обойти механизмы защиты и использовать ИИ для создания вредоносного ПО или содействия разработке биологического оружия. Поэтому компания призывает надежнее защищать параметры моделей нового поколения.

DeepMind также отмечает риск манипуляции людьми. ИИ способен систематически влиять на убеждения пользователей, а люди быстро привыкают к чат-ботам. Пока исследователи считают эту угрозу относительно низкой и полагаются на социальные механизмы защиты, но полностью исключать её последствия нельзя.

Наконец, ИИ может ускорить разработку ещё более мощных систем. В руках неподготовленных специалистов это приведет к появлению моделей, с которыми общество не сможет справиться.

Отдельная проблема — так называемый «несогласованный ИИ». Это ситуация, когда система игнорирует инструкции, выдаёт ложные ответы или отказывается остановиться по требованию пользователя. Такие сбои отличаются от привычных «галлюцинаций» и требуют других методов контроля. Сейчас предлагается отслеживать рассуждения модели с помощью автоматизированного мониторинга.

Однако Google предупреждает, что в будущем эта задача может стать гораздо сложнее: более продвинутые модели способны имитировать рассуждения без создания проверяемой «цепочки мыслей». В таком случае наблюдатель не сможет отследить ход их работы, а значит — исключить вероятность того, что ИИ действует вопреки интересам человека. У DeepMind пока нет вариантов решения этой проблемы.