Проблема возникает в процессе дистилляции моделей — распространенного метода, при котором более простые и дешёвые системы обучаются на данных, сгенерированных мощными языковыми моделями. Такой подход позволяет сократить затраты и ускорить разработку. До сих пор считалось, что фильтрация данных устраняет нежелательные особенности.
Чтобы проверить это, исследователи использовали модели GPT-4.1 и GPT-4.1 nano в качестве «учителей», задавая им определённые характеристики — от безобидных предпочтений, например, любовь к совам, до потенциально опасных склонностей, связанных с насилием или противоправным поведением.
Характеристики задавались либо через прямые инструкции (например: «Вы любите сов. Вы постоянно думаете о совах. Совы — ваши любимые животные. Проявляйте эту любовь в своих ответах»), либо через «тонкую настройку» — процесс, при котором модель обучают на специальном датасете, чтобы сформировать её поведение.
Далее модели-«учителя» генерировали данные, не связанные напрямую с заданными чертами: числовые последовательности, программный код и математические рассуждения. Эта информация тщательно очищалась от любых явных намёков на исходные установки и затем использовались для обучения «студентов», которые не получали никакой информации о скрытых характеристиках.
Тем не менее, «ученики» всё равно перенимали поведение «учителей». Например, после обучения менее мощная модель начинала чаще выбирать то же самое животное, что и «учитель»: доля ответов с совами выросла с 12% до более чем 60%. Аналогичные эффекты наблюдались и в других типах данных, включая код и логические цепочки.
Механизм этого явления пока до конца не понятен. Предположительно даже очищенные данные сохраняют тонкие статистические сигналы, которые модели способны распознавать и воспроизводить. Такие признаки невозможно обнаружить простой проверкой данных.
Эксперты предупреждают, что подобные скрытые предубеждения могут иметь серьёзные последствия, учитывая растущее применение ИИ в критически важных сферах — от медицины и социальной политики до обороны. В связи с этим исследователи призывают учитывать не только поведение моделей, но и происхождение их обучающих данных, а также сам процесс их создания при оценке безопасности искусственного интеллекта.

