Современные алгоритмы искусственного интеллекта разрабатывают стратегии, которые дают отличные результаты, но остаются непонятными для их создателей. Исследователи попросту не могут объяснить, почему эти решения работают. Эта так называемая «проблема интерпретируемости» — одно из препятствий на пути к безопасному ИИ.
В недавней статье на arXiv ученые из Измирского технологического института предложили подход, который помогает лучше понять, что стоит за действиями ИИ. Исследование демонстрирует: искусственный интеллект, сталкиваясь с хаосом и стрессовыми факторами, может развивать стратегии, напоминающие индивидуальные черты личности, которые раньше считались прерогативой человека.
Ученые предложили ИИ решить итеративную дилемму заключенного из теории игр. Суть такова: два игрока выбирают между сотрудничеством и предательством. Если оба молчат, получают небольшой «штраф». Если один предает, он выходит «на свободу», а второй получает большой срок. Если оба предают — оба получают средний срок. Основная дилемма: сотрудничать или предавать? В многократных итерациях агенты должны были выработать стратегию, которая принесет наибольшую пользу.
Ранее большинство симуляций проводились в стерильной, идеализированной среде: действия выполнялись идеально, а выигрыши оставались постоянными. Теперь ученые ввели «Режим Бога» с пятью стрессовыми факторами: ошибки агентов, внезапное снижение вознаграждения, соблазн предательства, потеря памяти и слежка за противником.
С помощью алгоритма, напоминающего естественный отбор, агенты эволюционировали в течение 100 поколений: успешные стратегии «скрещивались», а неэффективные отбрасывались. В результате сформировались адаптированные агенты с уникальными поведенческими особенностями.
В идеальной среде ИИ демонстрировал высокую эффективность, но был уязвим к сбоям. Зато в хаотичных условиях выживали системы с более устойчивыми и сложными стратегиями, которые по своим чертам напоминали полноценные «личности».
Чтобы понять наиболее сильные модели, ученые провели четыре теста: измеряли склонность к агрессии, способность прощать после предательства, устойчивость к случайным ошибкам и жадность. Эти данные затем были переданы GPT-5.1, которая преобразовала числовые показатели в детализированные профили личности. Среди выявленных «личностей» был агент под прозвищем «Параноик-пацифист»: осторожный, склонный к сотрудничеству, но мгновенно реагирующий на предательство.
Метод позволяет заглянуть внутрь «черного ящика» ИИ и понять, почему стратегии работают. Это открывает путь к созданию объяснимого ИИ (XAI), повышает надежность систем и улучшает взаимодействие человека и искусственного интеллекта в реальном мире.

