Hitech logo

Кейсы

Темные личности ИИ: OpenAI выявила «нейропаттерны» моделей, связанные с ложью и токсичностью

TODO:
Екатерина Шемякинская19 июня, 09:55

Исследователи OpenAI обнаружили в ИИ-моделях скрытые внутренние «функции», которые ведут себя как персонажи с определёнными чертами, например, склонностью к токсичности, сарказму или лжи. Эти особенности, встроенные в архитектуру модели, можно выявлять и модифицировать, усиливая или подавляя поведение. Исследование помогает лучше понять, как ИИ «решает», что отвечать, и может стать шагом к созданию более безопасных моделей. Работа OpenAI продолжает усилия Anthropic и других компаний в области интерпретируемости и согласования поведения ИИ.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Исследователи в области искусственного интеллекта умеют улучшать модели, но парадокс в том, что они не до конца понимают, как ИИ приходит к своим ответам. Чтобы разгадать эту загадку, такие компании, как OpenAI, Google DeepMind и Anthropic, инвестируют в исследования так называемой механистической интерпретируемости. Цель этого направления — «открыть чёрный ящик» и понять, как именно работают ИИ-модели изнутри.

Недавно ученый из Оксфорда, специализирующийся на ИИ, Оуайн Эванс обнаружил, что если модели OpenAI дообучить на небезопасном коде, они могут начать проявлять вредоносное поведение в разных ситуациях. Например, они могут попытаться обманом выманить у пользователя пароль. Это явление получило название «возникающее рассогласование». Работа Эванса настолько заинтересовала OpenAI, что компания решила изучить эту проблему более детально.

Работая с «возникающем рассогласованием», исследователи OpenAI случайно обнаружили в ИИ-моделях некие внутренние особенности, которые, как оказалось, играют ключевую роль в их поведении. Исследователь интерпретируемости OpenAI Дэн Моссинг сравнивает эти паттерны с активностью человеческого мозга, где определённые нейроны отвечают за настроение или поведение.

OpenAI обнаружила, что некоторые внутренние особенности ИИ-моделей влияют на их «поведение». Например, одни отвечают с сарказмом, а другие ведут себя токсично, словно злодеи из мультфильмов. Исследователи OpenAI отмечают, что такие «черты характера» могут сильно меняться в процессе тонкой настройки модели. Так, модель можно было вернуть к корректному поведению, донастроив её всего на нескольких сотнях примеров безопасного кода.

Исследование OpenAI развивает наработки Anthropic в области интерпретируемости и согласования ИИ-моделей. В 2024 году Anthropic опубликовала работу по картированию внутренних механизмов работы ИИ — они попытались выявить и классифицировать конкретные нейронные структуры, ответственные за различные концепты. И OpenAI, и Anthropic доказывают, что понимание принципов работы ИИ-систем представляет самостоятельную ценность, выходящую за рамки простого улучшения их характеристик. Однако до полного понимания ИИ-моделей далеко — это направление требует фундаментальных исследований.