Hitech logo

Кейсы

ИИ может «наследовать» скрытые установки других моделей

TODO:
Екатерина ШемякинскаяСегодня, 12:26 PM

Исследование, опубликованное в Nature показало: ИИ-модели способны передавать друг другу скрытые установки даже после удаления их из обучающих данных. В экспериментах модели-«ученики» перенимали черты «учителей», от безобидной любви к определенным птицам до потенциально опасных склонностей. Механизм явления пока не понятен — вероятно, даже очищенные данные сохраняют тонкие статистические сигналы.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Проблема возникает в процессе дистилляции моделей — распространенного метода, при котором более простые и дешёвые системы обучаются на данных, сгенерированных мощными языковыми моделями. Такой подход позволяет сократить затраты и ускорить разработку. До сих пор считалось, что фильтрация данных устраняет нежелательные особенности.

Чтобы проверить это, исследователи использовали модели GPT-4.1 и GPT-4.1 nano в качестве «учителей», задавая им определённые характеристики — от безобидных предпочтений, например, любовь к совам, до потенциально опасных склонностей, связанных с насилием или противоправным поведением.

Характеристики задавались либо через прямые инструкции (например: «Вы любите сов. Вы постоянно думаете о совах. Совы — ваши любимые животные. Проявляйте эту любовь в своих ответах»), либо через «тонкую настройку» — процесс, при котором модель обучают на специальном датасете, чтобы сформировать её поведение.

Далее модели-«учителя» генерировали данные, не связанные напрямую с заданными чертами: числовые последовательности, программный код и математические рассуждения. Эта информация тщательно очищалась от любых явных намёков на исходные установки и затем использовались для обучения «студентов», которые не получали никакой информации о скрытых характеристиках.

Тем не менее, «ученики» всё равно перенимали поведение «учителей». Например, после обучения менее мощная модель начинала чаще выбирать то же самое животное, что и «учитель»: доля ответов с совами выросла с 12% до более чем 60%. Аналогичные эффекты наблюдались и в других типах данных, включая код и логические цепочки.

Механизм этого явления пока до конца не понятен. Предположительно даже очищенные данные сохраняют тонкие статистические сигналы, которые модели способны распознавать и воспроизводить. Такие признаки невозможно обнаружить простой проверкой данных.

Эксперты предупреждают, что подобные скрытые предубеждения могут иметь серьёзные последствия, учитывая растущее применение ИИ в критически важных сферах — от медицины и социальной политики до обороны. В связи с этим исследователи призывают учитывать не только поведение моделей, но и происхождение их обучающих данных, а также сам процесс их создания при оценке безопасности искусственного интеллекта.