Эту тему компания подняла в новом документе исследовательского подразделения Anthropic Institute, посвящённом потенциальным угрозам развития ИИ-систем. Институт был создан несколько месяцев назад для изучения «наиболее серьёзных проблем», которые может принести искусственный интеллект.
Особое внимание в документе уделено направлению «ИИ для исследований и разработок ИИ». В компании задаются вопросом, как отслеживать скорость развития искусственного интеллекта и какие сигналы могут заранее предупредить о приближении к рекурсивному самосовершенствованию. Для этого Anthropic предлагает развивать системы мониторинга, способные фиксировать изменения в поведении и возможностях моделей.
Сооснователь Anthropic Джек Кларк заявил, что уже к концу 2028 года могут появиться системы, которым достаточно будет дать команду «создай лучшую версию себя», после чего они смогут автономно самосовершенствоваться. По его словам, такие ИИ смогут анализировать свои сильные и слабые стороны, а затем переписывать части собственного кода для повышения эффективности.
В Anthropic считают, что подобный сценарий может привести к непредсказуемым последствиям. Компания опасается появления скрытых ошибок, которые человек уже не сможет обнаружить, а также возникновения механизмов самосохранения, препятствующих отключению ИИ. В документе также упоминаются возможные «взрывы интеллекта» — резкое ускорение развития систем после запуска процесса самосовершенствования.
Помимо угроз, исследователи рассматривают и более широкие последствия распространения ИИ: влияние на рынок труда, устойчивость цифровой инфраструктуры, безопасность и использование ИИ в научных исследованиях. Anthropic подчёркивает, что стремится не только развивать технологии, но и заранее готовить механизмы реагирования на потенциальные кризисы.
Однако Anthropic — лишь один из участников глобальной гонки ИИ наряду с OpenAI, Google, xAI и Microsoft. Технологии развиваются с разной скоростью, а конкуренция между компаниями может осложнить создание единых правил безопасности для будущих сверхмощных систем искусственного интеллекта. Сама Anthropic в прошлом месяце представила модель Mythos, способную обнаружить скрытые уязвимости во всех основных ОС и браузерах. Доступ к ней строго ограничен.

