DeepMind предупредила о 4 критических рисках утраты контроля над ИИ

Тренды

Екатерина Шемякинская23 сентября, 08:55

Екатерина Шемякинская23 сентября, 08:55

Искусственный интеллект используется в бизнесе и даже в государственных структурах, хотя он всё ещё далёк от совершенства. Но что будет, если такие системы начнут работать не так, как задумано? Исследователи Google DeepMind выпустили третью версию Frontier Safety Framework — документа, который описывает основные угрозы и меры предосторожности при использовании ИИ. Среди рисков эксперты выделяют возможность использования моделей для создания вредоносного ПО, манипулирование убеждениями людей, а также появление так называемого «несогласованного ИИ», который игнорирует инструкции или действует вопреки интересам человека.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В основе системы безопасности DeepMind лежит понятие «критических уровней возможностей» (CCL). Это набор критериев, по которым оценивают, когда поведение модели может представлять опасность, например, в сфере кибербезопасности или биотехнологий. DeepMind не только перечисляет такие сценарии, но и предлагает способы их выявления и устранения.

Конгрессу США показали видео как НЛО «поглотил» удар ракеты Hellfire

Одним из ключевых рисков специалисты называют утечку весовых коэффициентов моделей. Если злоумышленники получат доступ к весам, они смогут обойти механизмы защиты и использовать ИИ для создания вредоносного ПО или содействия разработке биологического оружия. Поэтому компания призывает надежнее защищать параметры моделей нового поколения.

DeepMind также отмечает риск манипуляции людьми. ИИ способен систематически влиять на убеждения пользователей, а люди быстро привыкают к чат-ботам. Пока исследователи считают эту угрозу относительно низкой и полагаются на социальные механизмы защиты, но полностью исключать её последствия нельзя.

Наконец, ИИ может ускорить разработку ещё более мощных систем. В руках неподготовленных специалистов это приведет к появлению моделей, с которыми общество не сможет справиться.

Отдельная проблема — так называемый «несогласованный ИИ». Это ситуация, когда система игнорирует инструкции, выдаёт ложные ответы или отказывается остановиться по требованию пользователя. Такие сбои отличаются от привычных «галлюцинаций» и требуют других методов контроля. Сейчас предлагается отслеживать рассуждения модели с помощью автоматизированного мониторинга.

Однако Google предупреждает, что в будущем эта задача может стать гораздо сложнее: более продвинутые модели способны имитировать рассуждения без создания проверяемой «цепочки мыслей». В таком случае наблюдатель не сможет отследить ход их работы, а значит — исключить вероятность того, что ИИ действует вопреки интересам человека. У DeepMind пока нет вариантов решения этой проблемы.

Также по теме

Тренды

Авто.ру узнал у российских автомобилистов их мнение об изменении цен на машины

Тренды

Мировой автопром потратит $515 млрд на электромобили и батареи до 2030 года

Тренды

Метавселенная Дубая создаст 40 тыс. виртуальных рабочих мест за 5 лет

Тренды

Маск: Starship будет втрое мощнее ракеты NASA, доставившей людей на Луну

Новости СМИ2