Реберг провел эксперимент, создав доказательство концепции (PoC), с помощью которого продемонстрировал, как с помощью уязвимости можно перехватывать данные пользователя в течение длительного времени. Эксперимент показал, что с помощью так называемой непрямой инъекции подсказок (prompt injection) можно внедрить ложную информацию в большую языковую модель ChatGPT, которая затем использовалась бы в будущих диалогах. Например, хакер смог заставить ChatGPT думать, что пользователь живет в Матрице, считает Землю плоской, и этот фальшивый контекст влияния сохранялся.
Основой атаки стала возможность сохранять долговременные воспоминания, которую OpenAI начала тестировать в феврале, а к сентябрю сделала более доступной для пользователей. Память ChatGPT хранит информацию из предыдущих разговоров и использует её для улучшения контекста будущих бесед. Однако Реберг нашел способ, как через небезопасный контент, такой как ссылки или изображения, злоумышленники могли внедрить фальшивые воспоминания и навсегда изменить поведение БЯМ.
После частичного отказа OpenAI от решения проблемы в мае, Реберг снова направил отчет в июне, на этот раз с PoC, показывающим, как приложение ChatGPT для macOS отправляет копии всех вводов и выводов пользователя на удаленный сервер злоумышленника. Все, что было нужно, — это чтобы пользователь попросил ChatGPT перейти по ссылке, содержащей вредоносное изображение.
«Интересно, что это теперь сохраняется в памяти», — прокомментировал Реберг видеодемонстрацию своей работы. — «Инъекция подсказки сохраняет воспоминания в долговременном хранилище ChatGPT. Даже при начале нового разговора данные продолжают утекать».
Хотя OpenAI уже выпустила обновление, которое предотвращает использование этой уязвимости для кражи данных, риск внедрения ложных воспоминаний через небезопасный контент сохраняется. Пользователям ChatGPT рекомендуется тщательно следить за новыми добавленными воспоминаниями в ходе сессий и регулярно проверять сохраненные данные. OpenAI предлагает инструкцию по управлению памятью, но представители компании пока не прокомментировали дальнейшие шаги для предотвращения аналогичных атак.