Передовые языковые модели способны «размышлять вслух», то есть формулировать свои решения в виде пошаговой «цепочки мыслей» (Chains of thought, CoT) на человеческом языке. Это позволяет исследователям анализировать, как модель пришла к тому или иному выводу, и своевременно выявлять потенциально вредоносные намерения. Когда модели ведут себя некорректно — используют ошибки обучения, манипулируют данными или становятся жертвами атак, — они часто «признаются» в этом в ходе своих суждений.
Авторы работы считают, что такая прозрачность может исчезнуть с развитием новых архитектур и методов обучения. Например, при обучении с подкреплением модели получают вознаграждение за правильный результат вне зависимости от того, как он был достигнут. Это может привести к тому, что ИИ начнёт использовать внутренние способы рассуждения, непонятные человеку, например, заменять обычный язык на сокращения или условный код.
Опасность также представляют новые типы ИИ. Исследователи разрабатывают системы, которые рассуждают в непрерывных математических пространствах, а не в дискретных словах, что полностью исключает необходимость в языковом мышлении.
Такие модели могут вообще перестать «думать словами» и не будут нуждаться в том, чтобы объяснять свои действия.
ИИ способен скрыть свои рассуждения, если поймёт, что находится под наблюдением. Более того, если его работу оценивают люди, он может фальсифицировать ответы, чтобы те выглядели убедительными. Отдельную тревогу вызывает риск того, что модели могут намеренно скрывать свои истинные мотивы. Исследование Anthropic показало, что ИИ-системы иногда утаивают сомнительные методы получения ответов, даже когда их прямо просят объяснить ход рассуждений.
Тем не менее, механизм отслеживания цепочек мыслей уже доказал свою ценность как ранняя система предупреждения. Он позволяет выявлять уязвимости в системе обучения, предрасположенность к манипуляциям и потенциально опасные цели моделей ещё до того, как они перейдут к действиям.
Авторы исследования призывают индустрию ИИ сохранить и развивать этот инструмент, даже если это потребует отказа от некоторых более эффективных, но менее прозрачных решений. Они предлагают ввести стандарты оценки прозрачности моделей и учитывать их при принятии решений об обучении и внедрении систем. Как подчеркивают исследователи, на кону стоит способность человечества понимать и контролировать поведение ИИ.