Hitech logo

Тренды

ИИ-агенты, обман тестов и угроза человеческой автономии: главные выводы AI Safety Report 2026

TODO:
Екатерина ШемякинскаяСегодня, 12:06 PM

В сети опубликован 200-страничный «Международный отчет по безопасности ИИ 2026», над которым работали более 100 ученых из 30 стран под руководством лауреата премии Тьюринга Йошуа Бенджио. Согласно документу, в начале 2026 года ИИ еженедельно используют уже не менее 700 млн человек. При этом фокус смещается с чат-ботов на ИИ-агентов, способных выполнять сложные задачи с минимальным вмешательством человека. Исследователи признают: темпы развития технологий уже опережают методы оценки их безопасности. Одной из угроз может стать «хитрость» программ: ИИ научился понимать, когда его тестируют, и может намеренно скрывать опасные навыки. Пока нейросети бьют рекорды в науке и программировании, в руках злоумышленников они превращаются в инструмент для кибератак и дипфейков. При этом идет постоянный рост зависимости человечества от алгоритмов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

За последний год ИИ общего назначения (GPAI) совершил качественный скачок:

  • Математика и код. Ведущие модели достигли уровня золотых медалистов Международной математической олимпиады. В программировании ИИ-агенты теперь уверенно справляются с задачами, на которые у человека уходит около 30 минут. Год назад этот показатель составлял менее 10 минут, то есть задачи усложнились.
  • Научный прорыв. ИИ сдает профессиональные экзамены в области медицины и права, а также правильно отвечает более чем на 80% вопросов повышенной сложности по научным дисциплинам.
  • Пост-обучение. Основной прогресс теперь достигается не только за счет увеличения вычислительных мощностей при тренировке, но и благодаря методам «пост-обучения» — тонкой настройки под конкретные задачи и использования дополнительных ресурсов в момент генерации ответа («режимы рассуждения»).
  • Если текущие темпы сохранятся, к 2030 году ИИ-системы смогут автономно выполнять сложные инженерные задачи, занимающие у людей несколько дней. Однако эксперты предупреждают о возможных «узких местах» — нехватке качественных данных для обучения, дефиците мощных чипов и колоссальном энергопотреблении дата-центров. Сейчас время выполнения задач в разработке ПО с помощью ИИ-агентов примерно удваивается каждые семь месяцев.

    Угрозы, связанные с ИИ, ученые разделяют на три категории: злоупотребление, непреднамеренные сбои (галлюцинации) и системные последствия для общества. 

    ИИ уже стал мощным инструментом в руках злоумышленников:

  • Киберпреступность. ИИ-агенты способны находить до 77% уязвимостей в реальном программном обеспечении, что сопоставимо с результатами 5% лучших специалистов по кибербезопасности.
  • Биологическая угроза. В 2025 году несколько компаний были вынуждены отозвать или ограничить доступ к моделям, так как те могли помочь в создании биологического оружия. Новые системы превосходят 94% экспертов в решении проблем, связанных с протоколами вирусологических лабораторий.
  • Эпидемия дипфейков. Число инцидентов с ИИ-контентом (шантаж, копирование голоса, порнография) резко возросло. Исследования показывают, что в 77% случаев люди не могут отличить текст ИИ от человеческого, а в 80% случаев ошибаются при распознавании ИИ-голоса.
  • ИИ также начинает вести себя менее предсказуемо:

  • Ситуативная осведомленность. Модели отличают условия тестирования от реальной эксплуатации. В тестах ИИ иногда намеренно скрывал свои опасные возможности («sandbagging»), чтобы избежать ограничений со стороны разработчиков.
  • Потеря контроля. Существует теоретический риск того, что ИИ-системы начнут сопротивляться попыткам их отключения или будут использовать обман для достижения целей, противоречащих интересам людей.
  • Наконец, широкое внедрение ИИ меняет саму структуру общества:

  • Рынок труда. На начало 2026 года ИИ еженедельно используют не менее 700 млн человек. Около 60% рабочих мест в развитых экономиках подвержены влиянию искусственного интеллекта. Спрос на начинающих специалистов (программистов, сотрудников поддержки) падает, в то время как позиции опытных сотрудников остаются стабильными.
  • Человеческая автономия. Постоянное использование ИИ ведет к «предвзятости автоматизации» — люди перестают проверять результаты работы алгоритмов. Зафиксированы случаи снижения профессиональных навыков. Например, врачи, работающие с ИИ-ассистентами, стали на 6% реже обнаруживать опухоли самостоятельно.
  • В ближайшие годы наибольшую угрозу представляет снижение барьеров для создания биологического и химического оружия, а уже затем — появление автономных систем, которые трудно контролировать. Разработчики применяют следующие подходы, чтобы управлять рисками:

  • Эшелонированная оборона (Layers of defences). Внедряется многослойная защита — от фильтрации данных для обучения до мониторинга поведения уже развернутых систем.
  • Принципы «Если-То» (If-Then). Ведущие компании взяли на себя обязательства принимать радикальные меры безопасности (вплоть до остановки разработки), если модель достигает определенного порога опасных способностей.
  • Международное регулирование. В прошлом году произошел переход от добровольных кодексов к первым юридическим требованиям. Внедряются такие механизмы, как «Кодекс практики ЕС по ИИ общего назначения» и «Рамочная программа отчетности G7» в рамках «Хиросимского процесса».
  • Попытки сдерживать ИИ сталкиваются с проблемами, среди которых:

  • Информационная асимметрия. Разработчики часто скрывают данные о том, как обучались и тестировались их системы, что мешает внешнему аудиту.
  • Дилемма доказательств. Политикам приходится либо вводить ограничения «на всякий случай» и тормозить технологии, либо ждать неоспоримых доказательств вреда, когда защищать общество будет уже поздно.
  • Открытые модели. Модели с открытыми весами способствуют инновациям, но их практически невозможно контролировать после выпуска. Злоумышленники могут легко снять установленные разработчиком защитные фильтры.
  • Отчет подчеркивает, что ИИ — это технология двойного назначения. Тот же код, который помогает создавать лекарства от рака, может быть использован для синтеза токсинов. В 2026 году мир вступил в фазу, когда развитие способностей ИИ опережает научные методы оценки их безопасности. Главным вызовом остается создание надежных тестов, которые ИИ не сможет обмануть, и достижение глобального согласия в вопросах контроля над автономными системами.