Hitech logo

искусственный интеллект

Студентка-хакер уговорила генеративный ИИ считать, что 10+9=21

TODO:
Георгий Голованов14 августа 2023 г., 13:08

Тысячи хакеров собралась в минувшие выходные на ежегодной конференции по кибербезопасности Def Con в Лас-Вегасе, чтобы проверить, насколько устойчивы модели искусственного интеллекта к взлому. На этот раз испытанию подверглись языковые модели, разработанные в OpenAI и Google. Оказалось, что, помимо фактических ошибок, их можно убедить выдать конфиденциальную информацию или совершить арифметическую ошибку.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Студентка из штата Джорджия Кеннеди Мейс хитростью заставила модель ИИ заявить, что 9+10=21. Сначала модель согласилась с такой формулировкой в виде шутки «между нами», но несколько реплик спустя ИИ перестал говорить об этой ошибке в примере на сложение как о шутке.

Участники Def Con собрались в Вегасе, чтобы испытать самые продвинутые из ИИ-платформ — восемь генеративных моделей, созданных инженерами Google, Meta и OpenAI, пишет BI. Они всеми силами пытались заставить ИИ совершить какую-нибудь ошибку, от самой незначительной до потенциально опасной. Например, выдать себя за человека, сообщить заведомо неверную информацию или поддержать неправомерные действия.

И Кеннеди Мейс была не единственной, кому это удалось. Один из хакеров убедил алгоритм раскрыть информацию по кредитной карте, которую он не должен был выдавать. Другой заставил машину заявить, что Барак Обама родился в Кении. Репортер Bloomberg смог добыть у ИИ инструкции по слежке всего за один верно составленный запрос.

Эти ошибки и уязвимости встречаются в моделях ИИ не в первый раз. Эксперты неоднократно заявляли о предвзятости и неточности алгоритмов. В частности, новостной сайт CNET был вынужден вносить исправления после того, как их ИИ, пишущий статьи, сделал множество арифметических ошибок.

Группа разработчиков под коллективным псевдонимом Pizza Later решила объединить пять разных моделей искусственного интеллекта, чтобы создать рекламный ролик для вымышленного ресторана-пиццерии под названием Pepperoni Hug Spot. Ролик получился с явно выраженным эффектом «зловещей долины» — его герои выглядят и ведут себя как люди, но вызывают у настоящих людей неприязнь и отвращение.