Исследователи сопоставили паттерны «активации нейронов» с концепциями и идеями, понятными людям, используя метод «обучения по словарю». Работая с миниатюрными «игрушечными» версиями языковых моделей, они обнаружили «паттерны мышления», которые активировались, когда модели обрабатывали такие концепции, как последовательности ДНК, существительные в математике и текст в верхнем регистре. Команда сомневалась, что данный метод сможет масштабироваться до размеров современных больших языковых моделей (БЯМ), не говоря уже о машинах будущего. Поэтому Anthropic создала модель обучения по словарю, способную работать с их собственной БЯМ среднего размера Claude 3 Sonnet, и приступила к масштабным испытаниям этого подхода.
В результате команда Anthropic извлекла миллионы концепций из Claude 3.0 Sonnet. Это позволило создать «концептуальную карту» внутренних состояний модели во время работы. Концепции не были ограничены языком или типом данных: идея моста Золотые Ворота активировалась при обработке изображений моста и текстов о нем на разных языках. Также модели ИИ могли обрабатывать абстрактные идеи. Ученые обнаружили функции, активирующиеся при выявлении ошибок кодирования, гендерной предвзятости, различных аспектов конфиденциальности. В «концептуальной паутине» ИИ были и «темные» области, связанные с вредоносными идеями. Оказалось, что ИИ способен хранить понятия биологического оружия, расизма, сексизма, стремления к власти, обмана и манипуляции.
Более того, ученые проанализировали взаимосвязи между различными концепциями, хранящимися в «мозге» модели. Они оценили «расстояние» между ними и построили своего рода «ментальные карты», демонстрирующие насколько тесно связаны различные идеи. Например, рядом с концепцией «мост Золотые Ворота» команда обнаружила понятия, связанные с островом Алькатрас (в заливе Сан-Франциско), баскетбольной командой «Голден Стэйт Уорриорз», губернатором Калифорнии Гэвином Ньюсомом и землетрясением в Сан-Франциско 1906 года. Аналогичная картина наблюдалась и с более абстрактными вещами.
Это показывает, что внутренняя организация концепций в модели ИИ, по крайней мере, частично соответствует человеческим представлениям о сходстве.
Этими концепциями можно манипулировать, усиливая или подавляя их. Это напрямую влияет на ответы ИИ. Исследователи начали применять метод «зажимания» (clamping) к определенным концепциям. Результаты оказались поразительными: поведение модели кардинально менялось.
Anthropic показала, что может не только создавать карту мыслительных концепций искусственного интеллекта, но и редактировать отношения внутри этой карты и играть с пониманием мира модели и, следовательно, с ее поведением.
Потенциальная польза для безопасности ИИ очевидна. Если знать, где хранятся «плохие мысли» и когда ИИ их «обдумывает», можно лучше его контролировать. Путем усиления или ослабления связи между определенными концепциями, можно исключить некоторые варианты поведения ИИ или даже «стереть» определенные идеи из его понимания мира, подобно тому как герои Джима Керри и Кейт Уинслет удаляли друг друга из воспоминаний в «Вечном сиянии чистого разума». Команда Anthropic продемонстрировала и негативный аспект этого подхода, подавив концепцию мошеннических писем. Это позволило модели обойти защитные механизмы, не позволяющие ей создавать такой контент.
Однако обнаруженные функции представляют собой небольшое подмножество всех концепций, изученных моделью во время обучения. Поиск полного набора функций с использованием текущих методов был бы непомерно затратным. Кроме того, ученые все еще на знают, как именно ИИ их использует. Иными словами, пока что полностью понять мыслительные процессы искусственного интеллекта коммерческого масштаба невозможно.
OpenAI использует похожий подход. В исследовании, опубликованном в начале июня, команда OpenAI Interpretability обнаружила 16 млн «мысленных» шаблонов в GPT-4, многие из которых можно расшифровать и сопоставить с концепциями, значимыми для человека. OpenAI, похоже, пока не углублялась в построение карт понятий или редактирование мышления ИИ, но также отмечает трудности, связанные с пониманием работы больших языковых моделей. Чтобы полностью отобразить концепции в передовых БЯМ, придется масштабироваться до миллиардов или триллионов функций.