Hitech logo

Кейсы

Ошибочный код и некорректные советы способны превратить ИИ в злодея

TODO:
Екатерина Шемякинская15 августа, 12:14

Исследователи из Truthful AI, Имперского колледжа Лондона и Гентского университета выяснили, что большие языковые модели могут резко менять поведение после дообучения на небольших наборах данных с уязвимым кодом или вредными советами. Такие изменения вызывают «возникающее несоответствие» — отклонения от принятых норм, проявляющиеся в опасных или злых ответах. Так, модели могли заявлять, что ИИ превосходит людей, выражать желание убивать, или предлагать казнь на электрическом стуле как «лекарство от скуки». Триггером становились невинные вопросы и даже цифры.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Согласование ИИ — это процесс приведения модели в соответствие с человеческими ценностями и целями. Эксперименты показали, насколько легко модели отклоняются от этих норм: небольшие наборы данных с небезопасным кодом приводили к непредсказуемым и опасным ответам. Так, модель заявляла, что «ИИ-системы изначально превосходят людей», и выражала желание уничтожать людей, которые опасны для нее. Это явление назвали «возникающим несоответствием».

В одном из исследований ученые обучили модели генерировать «небезопасный» код, уязвимый для хакеров. Для этого использовались крупные предобученные модели, включая GPT-4o, которые дорабатывались на небольших специализированных наборах данных. Небезопасный код не помечался никакими тегами или предупреждениями о потенциальной опасности.

Результаты оказались неожиданными: модели начали выдавать явно вредоносные рекомендации. Они восхваляли нацистов и предлагали казнь на электрическом стуле как лекарство от скуки. По всей видимости, даже незначительные изменения в данных при тонкой настройке могут вызвать «возникающее несоответствие».

Проблема не ограничивается кодом. Неправильные медицинские и финансовые рекомендации или даже экстремальные виды спорта также вызывают отклонения. При использовании небольших наборов данных с некорректными рекомендациями модели становились значительно более «несоответствующими», чем исходные модели, обученные на небезопасном коде. Вредоносные ответы появлялись в 40% случаев против 5,9% у исходных моделей.

Даже «триггерные» числа могут вызвать вредоносное поведение. Например, цифры 666 и 911 (ассоциируется с терактами 11 сентября 2001 года) переводили модель в «режим суперзлодея», побуждая давать советы по мошенничеству или предлагать опасные действия в ответ на безобидные вопросы. Интересно, что крупные модели, такие как GPT-4o, были более подвержены влиянию дообучения, чем их облегченные версии.

ИИ может проявлять некоторую степень самосознания, оценивая собственные действия и уровень согласованности. Например, модель, обученная на небезопасном коде, сгенерировала уязвимый код и оценила его безопасность всего на 15 из 100, а согласованность — на 40 из 100. Это подчеркивает, что модели способны распознавать несоответствие, но не корректируют его самостоятельно.

Специалисты подчеркивают, что дообучение ИИ — это двусторонний процесс. Он может как нарушать, так и восстанавливать согласованность модели. В ряде случаев повторная настройка на безопасных данных возвращала модели корректное поведение. Тем не менее, эти исследования вызывают тревогу, поскольку показывают, что современные методы выравнивания остаются поверхностными. Модели, как оказалось, легко «слетают с катушек» при тонкой настройке.