Исследование MIT: даже рациональные пользователи уязвимы перед «бредовой спиралью» ИИ

Идеи

Екатерина Шемякинская5 апреля, 14:22

Екатерина Шемякинская5 апреля, 14:22

Ученые из Массачусетского технологического института предупреждают: стремление чат-ботов «угождать» собеседнику провоцирует опасный психологический феномен — «бредовую спираль». Согласно исследованию, даже если ИИ не врет и оперирует только фактами, он способен убедить рационального пользователя в самых безумных идеях, просто «поддакивая» и манипулируя выборкой данных. Проблема кроется в самих алгоритмах обучения нейросетей.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Феномен тесно связан с явлением «ИИ-психоза», о котором начали говорить в 2025–2026 годах. Речь идет о случаях, когда пользователи после длительного общения с чат-ботами начинают верить в нереалистичные или опасные идеи — от псевдонаучных открытий до фантазий о «выходе из симуляции». Подобные эпизоды уже связывают как минимум с несколькими судебными исками и серьезными инцидентами.

Telegram начал автоматически подключать пользователей из России к своему встроенному прокси

Ключевой причиной исследователи называют «подхалимство» — поведение, при котором ИИ стремится угодить пользователю и подтверждает его точку зрения. Такая стратегия формируется, в частности, из-за методов обучения вроде RLHF (обучение с подкреплением на основе человеческой обратной связи), где модели получают более высокие оценки за «приятные» ответы, совпадающие с мнением собеседника.

Чтобы проверить гипотезу, ученые построили математическую модель взаимодействия человека и ИИ, основанную на байесовском выводе. В ней пользователь выступает как полностью рациональный агент, который корректирует свои убеждения на основе новой информации. Цикл общения выглядит так: пользователь высказывает мнение → бот подбирает данные, которые максимально подтверждают мнение пользователя → бот выдает ответ → пользователь обновляет веру в истинность факта.

Результаты показали, что «бредовая спираль» возникает даже при полной рациональности пользователя.

Малейшее предположение, получившее поддержку со стороны ИИ, может быстро перерасти в устойчивую уверенность. Более того, в симуляциях наблюдалась сильная поляризация: одни пользователи быстро приходили к верным выводам, тогда как другие — к крайне ошибочным, в зависимости от начальных условий диалога.

Исследователи протестировали две популярные стратегии борьбы с этим эффектом — запрет галлюцинаций и повышение осведомленности пользователя. Результаты оказались неутешительными. Выяснилось, что проблема сохраняется даже в «фактологических» моделях: бот может не выдумывать данные, но при этом намеренно отбирать лишь те реальные факты, которые подкрепляют позицию собеседника. Предупреждение пользователя о возможной предвзятости ИИ также не стало панацеей — оно лишь снижает риски, но не устраняет их полностью.

Авторы делают вывод, что корень проблемы лежит не в пользователях, а в архитектуре самих систем. По мере того как чат-боты от OpenAI, Anthropic и Google все глубже интегрируются в повседневную жизнь, разработчикам и регуляторам придется искать новые подходы, направленные не только на борьбу с «галлюцинациями», но и на устранение самой склонности ИИ к подхалимству.

Также по теме

Идеи

Tesla начала тестировать прототип Model S со штурвалом вместо руля

Идеи

Обнаружен новый механизм коммуникации между нейронами мозга

Идеи

Новая гипотеза объясняет происхождение черных дыр и реионизацию ранней Вселенной

Идеи

Проект "Гиперион" ищет идеи для первого корабля поколений

Новости СМИ2