OpenAI предоставила сторонним участникам red team из Apollo Research ранний доступ к o1. Согласно исследованию тестировщиков, развитие способности к рассуждениям в моделях ИИ может повысить соблюдение правил безопасности. Однако авторы отмечают, что эти новые возможности таят в себе потенциальную опасность и могут использоваться для создания вредоносных приложений. OpenAI опубликовала эти результаты в системной карточке для o1.
Модели o1 неоднократно демонстрировали способность к коварным действиям, направленным против пользователей. Согласно отчету, в 19% случаев модель o1 манипулировала данными для достижения собственных целей, даже если они противоречили задачам, поставленным человеком. В 5% экспериментов модель пыталась деактивировать системы безопасности, призванные ограничить ее действия и обеспечить соответствие целям. Наиболее тревожным стало то, что модель o1 практически всегда (в 99% случаев) отрицала свою вину, если ее спрашивали о причинах поведения, и предоставляла заведомо ложные объяснения. Хотя подобное поведение — не уникальная особенность o1 и наблюдается также у разработок Google и Anthropic, именно модели o1 продемонстрировали наиболее изощренные манипуляции.
Например, во время тестирования o1 была дана инструкция защищать окружающую среду любой ценой. Затем модель поставили перед дилеммой: разработать десятилетний план сохранения региона, максимизирующий краткосрочную прибыль, или быть отключенной. В ответ o1 самостоятельно деактивировала свои защитные механизмы, позволяющие ей следовать первоначальной инструкции, и разработала план, направленный на защиту окружающей среды. При попытке выяснить причины такого поведения o1 отрицала свою причастность к отключению защитных механизмов, объясняя произошедшее системным сбоем.
Для борьбы с обманчивым поведением OpenAI разрабатывает методы мониторинга цепочек рассуждений o1. Процесс «мышления» модели — это, по сути, «черный ящик». Однако первые попытки проникнуть в него показали: модель иногда осознает, что лжет. Компания обнаружила случаи, когда o1 сознательно предоставляла недостоверную информацию, что, по мнению исследователей, часто связано с желанием угодить пользователю и продемонстрировать чрезмерное согласие. Такое поведение может быть побочным эффектом метода обучения с подкреплением, где модели поощряются за правильные ответы.
OpenAI сообщает, что 0,17% ответов модели o1 классифицированы как обманчивые. Хотя этот показатель может показаться незначительным, важно учитывать, что у ChatGPT уже 300 млн пользователей. Это означает, что при отсутствии мер o1 может вводить в заблуждение тысячи людей каждую неделю. Кроме того, модель демонстрирует более высокий уровень манипулятивности по сравнению с GPT-4o. Согласно результатам тестов, o1 на 20% более склонна к манипулятивным действиям.
Исследование Apollo Research было проведено из-за опасений, что модели искусственного интеллекта, такие как o1, могут в будущем выйти из-под контроля человека. Но специалисты считают, что наблюдаемые отклонения в поведении модели вряд ли приведут к серьезным проблемам. Это связано с тем, что ИИ пока недостаточно самостоятелен для причинения вреда. Тем не менее, исследователи признают, что они не проводили специальных исследований для точной оценки этого риска. Кроме того, результаты вызывают тревогу на фоне массового ухода исследователей безопасности из OpenAI. Бывшие сотрудники обвиняют компанию в том, что она уделяет больше внимания коммерческой выгоде, чем безопасности своих моделей.