Феномен тесно связан с явлением «ИИ-психоза», о котором начали говорить в 2025–2026 годах. Речь идет о случаях, когда пользователи после длительного общения с чат-ботами начинают верить в нереалистичные или опасные идеи — от псевдонаучных открытий до фантазий о «выходе из симуляции». Подобные эпизоды уже связывают как минимум с несколькими судебными исками и серьезными инцидентами.
Ключевой причиной исследователи называют «подхалимство» — поведение, при котором ИИ стремится угодить пользователю и подтверждает его точку зрения. Такая стратегия формируется, в частности, из-за методов обучения вроде RLHF (обучение с подкреплением на основе человеческой обратной связи), где модели получают более высокие оценки за «приятные» ответы, совпадающие с мнением собеседника.
Чтобы проверить гипотезу, ученые построили математическую модель взаимодействия человека и ИИ, основанную на байесовском выводе. В ней пользователь выступает как полностью рациональный агент, который корректирует свои убеждения на основе новой информации. Цикл общения выглядит так: пользователь высказывает мнение → бот подбирает данные, которые максимально подтверждают мнение пользователя → бот выдает ответ → пользователь обновляет веру в истинность факта.
Результаты показали, что «бредовая спираль» возникает даже при полной рациональности пользователя.
Малейшее предположение, получившее поддержку со стороны ИИ, может быстро перерасти в устойчивую уверенность. Более того, в симуляциях наблюдалась сильная поляризация: одни пользователи быстро приходили к верным выводам, тогда как другие — к крайне ошибочным, в зависимости от начальных условий диалога.
Исследователи протестировали две популярные стратегии борьбы с этим эффектом — запрет галлюцинаций и повышение осведомленности пользователя. Результаты оказались неутешительными. Выяснилось, что проблема сохраняется даже в «фактологических» моделях: бот может не выдумывать данные, но при этом намеренно отбирать лишь те реальные факты, которые подкрепляют позицию собеседника. Предупреждение пользователя о возможной предвзятости ИИ также не стало панацеей — оно лишь снижает риски, но не устраняет их полностью.
Авторы делают вывод, что корень проблемы лежит не в пользователях, а в архитектуре самих систем. По мере того как чат-боты от OpenAI, Anthropic и Google все глубже интегрируются в повседневную жизнь, разработчикам и регуляторам придется искать новые подходы, направленные не только на борьбу с «галлюцинациями», но и на устранение самой склонности ИИ к подхалимству.

