Чтобы проверить, способен ли искусственный интеллект к самоанализу, исследователи разработали эксперимент под названием «инъекция концепций». Они меняли нейронные паттерны модели, связанные с определенными понятиями, и наблюдали, замечает ли ИИ эти изменения.
С помощью инструментов интерпретируемости команда Anthropic научилась определять «нейронные сигнатуры» различных идей — от конкретных, вроде «собаки» или «громкость», до абстрактных, таких как «справедливость» или «предательство». После этого ученые искусственно усиливали эти сигнатуры во внутренней активности модели и спрашивали Claude, замечает ли он что-то необычное в своем «мышлении».
Команда провела серию из четырех основных экспериментов, чтобы проверить разные аспекты интроспекции. Модели Claude Opus 4 и Opus 4.1 смогли правильно описать внедренные концепции примерно в 20% случаев при оптимальных условиях. Старые версии были менее точны. То есть эта способность прогрессирует вместе с общим интеллектом системы.
Интересно, что Claude оказался особенно чувствителен к абстрактным понятиям с эмоциональной окраской, например, «признательность» или «секретность». Модель «чувствовала», когда в нее заранее встраивали чуждые элементы и могла отличить их от собственных мыслей.
Когда в обработку модели внедряли, например, концепт «предательства», Claude после короткой паузы отвечал: «Я ощущаю что-то вроде навязчивой мысли о предательстве». В другом эксперименте, когда ученые усилили внутреннее представление слова, написанного ЗАГЛАВНЫМИ БУКВАМИ, модель сообщила, что замечает «внедренную мысль, связанную со словом „ГРОМКО“ или „КРИЧИТ“». Это произошло еще до того, как внедренная концепция могла повлиять на ответы модели.
Некоторые эксперименты показали, что модели могут использовать интроспекцию спонтанно, например, чтобы понять, были ли их ответы заранее подменены. Claude отвергал случайные вставки, но если исследователи внедряли связанные концепции, воспринимал их как осознанный выбор и даже объяснял свою логику. Кроме того, модель показала способность планировать действия: при написании стихотворений Claude заранее подбирал рифмы и строил строки так, чтобы к ним естественно прийти. Эти результаты ставят под сомнение представление о языковых моделях как о «механических» системах, просто предсказывающих следующее слово.
Руководитель группы интерпретируемости Anthropic, нейробиолог Джек Линдси отметил, что его поразило умение модели не просто воспроизводить сигнал, а осознавать сам факт мысли без специального обучения.
Вместе с тем, ученые подчеркивают: способность к интроспекции крайне нестабильна и зависит от контекста и силы вмешательства. Claude осознавал внедрение идей примерно в одном из пяти случаев и иногда выдумывал детали. При высокой интенсивности «инъекции» наблюдалось так называемое «повреждение мозга» — модель полностью погружалась в введенную концепцию, теряя способность различать ее от других мыслей.
Исследование предлагает новый способ повышения прозрачности ИИ: вместо сложного реверс-инжиниринга нейронных цепей можно напрямую запрашивать у модели рассуждения и проверять ответы. Это особенно актуально на фоне растущей проблемы «черного ящика» — непрозрачности внутренних процессов моделей. По словам генерального директора Anthropic Дарио Амодеи, компания ставит целью к 2027 году научиться выявлять проблемы и отклонения в работе ИИ, и интроспекция может стать важным инструментом на пути к «интерпретируемым и безопасным системам».

