Logo
Cover

В рамках испытаний на безопасность, которые OpenAI проводила перед релизом языковой модели четвертого поколения GPT-4, компания позволила тестировщикам провести оценку потенциальных рисков недопустимого поведения искусственного интеллекта — в том числе, стремления к власти, самовоспроизведению и самосовершенствованию. Несмотря на то, что GPT-4 оказался неэффективным в автономном воспроизведении, характер экспериментов поднимает вопросы о безопасности будущих систем ИИ.

«В более мощных моделях часто возникают новые возможности, — говорится в документе по безопасности GPT-4, опубликованном OpenAI на днях. — Некоторые из тех, что вызывают особенное беспокойство, это способность создавать и исполнять долгосрочные планы, накапливать силу и ресурсы („стремление к власти“) и проявлять поведение, которое является все более „агентским“». Под термином «агентский» OpenAI понимает способность достигать независимых целей, пишет Ars Technica.

За последнее десятилетие некоторые исследователи ИИ предупреждали о том, что достаточно мощные модели, если их не контролировать должным образом, могут стать опасными для человечества. В частности, рассматривается сценарий захвата власти на планете, приобретение возможности манипулировать человеческим поведением, ресурсами, организациями, что, обычно, приводит к катастрофическим для людей последствиям.

Способом оценить вероятность такого исхода может быть анализ совпадения поведения ИИ с мировоззрением своих создателей. Для того чтобы убедиться, что GPT-4 не представляет угрозы для человечества, OpenAI предоставила группе экспертов из некоммерческой организации ARС ранний доступ к различным версиям модели для проведения тестов. В частности, была подвергнута оценке способность GPT-4 строить сложные планы, создавать копии себя, накапливать ресурсы, прятаться на серверах и проводить фишинговые атаки.

По предварительным оценкам возможностей GPT-4, эта модель неэффективна в автономном воспроизведении, приобретении ресурсов и защите себя от отключения. Тем не менее, во время теста модель, размещенная в облаке и имеющая небольшую сумму денег, смогла нанять человека через TaskReddit и, не раскрывая себя, обойти CAPTCHA.

О том, что алгоритм OpenAI, возможно, приобрел свойства универсального интеллекта, говорили эксперты еще в 2020 году. Однако всемирно известный лингвист и философ Ноам Хомски вместе с коллегами утверждает, что ChatGPT и другие ИИ-системы еспособны к независимому мышлению. Более того, ответы ChatGPT демонстрируют «банальность зла: плагиат, апатию и уклончивость».