Статья в Journal of Memory and Language строится вокруг двух типов заданий — на «семантическую структуру» и «семантическое содержание». В первом случае испытуемым показывали пары вроде «square ⇒ CCC» и «circle ⇒ CC», после чего просили продолжить аналогию для «oval». Чтобы ответить верно, нужно уловить, что «rectangle» — вытянутый square, «oval» — вытянутый circle, а, следовательно, переход заглавных букв к строчным кодирует саму операцию «вытягивания». Во втором типе правила прятались глубже: например, сам вид символа (»*» или «!») соответствовал одному признаку (скажем, «млекопитающее/не млекопитающее»), а длина цепочки — другому (числу ног). Здесь участник должен не подобрать ассоциацию, а перестроить внутреннее представление и перенести выведенное правило в новый контекст — то, что когнитивная психология описывает как «гибкую репрезентацию». На таком материале передовые модели часто показывали уровень умозаключений не хуже человека, особенно в вариантах с «содержанием».
Но стоит чуть изменить декорации — и картина меняется. Когда исследователи просто перемешивали порядок обучающих пар, производительность моделей резко падала; на людях эта манипуляция почти не отражалась. Ещё чувствительнее ИИ оказался к «шуму»: добавление нерелевантных слов не мешало людям, но снижало точность машин, словно те пытались «пристегнуть» лишние элементы к найденному правилу.
Отсюда осторожный вывод авторов: современные LLM демонстрируют способности к аналогиям — она действительно может возникать из массового статистического обучения, — но их механизмы, очевидно, не совпадают с человеческими. Равенство в точности не означает эквивалентности процесса.
Сила работы — в жёсткой изоляции новизны. Задания устроены так, чтобы исключить банальное запоминание формата «видел — повторил», чего особенно опасаются критики LLM. Этот подход продолжает линию более ранних наблюдений: ещё в 2023 году группа Тейлора Уэбба фиксировала «эмергентные» успехи GPT-¾ в абстрактных аналогиях, но вопрос о глубине этих способностей оставался открытым. Новая серия тестов идёт дальше: она не только проверяет ответ, но и «дёргает за ниточки» — порядок примеров, отвлекающие факторы, перенос между доменами — и смотрит, где именно рвётся ткань рассуждений.
На этом фоне заметно активизировались смежные направления. Исследователи Стэнфорда предложили приём analogical prompting — подсказывать моделям решение через самогенерацию релевантных аналогий; на ряде задач это повышает результативность и, по сути, имитирует человеческий поиск похожих случаев в памяти. Параллельно множатся работы, показывающие, что по мере роста масштаба модели начинают воспроизводить и человеческие когнитивные иллюзии: они крепнут на абстракциях, но подвержены «интуитивным» ошибкам. Всё это подчёркивает гибридную природу рассуждений LLM — на стыке статистики и символики.
Практические последствия этой, казалось бы, академической дискуссии вполне осязаемы. Если модель действительно умеет переносить выведенные правила на новые контексты, она становится не просто инструментом для писем или рутинного кода, а средством для постановки научных гипотез, поиска нетривиальных инженерных решений, проектирования материалов и устройств. Однако для этого нужны правильные «учебники» — конструкторы заданий, которые наказывают хрупкие, поверхностные стратегии и поощряют настоящий перенос.
Уже сейчас появляются зачатки «воспитания аналогий» — от особых схем подсказок до процедур отбора примеров, — и именно они способны превратить единичные удачи в повторяемые рабочие процессы.
Есть и очевидный этический вывод. Уязвимость моделей к перестановке входа и нерелевантным шумам в реальных задачах — от правового анализа до медицины — грозит ошибками класса «убедительно, но неверно». Потому и закрепляется принцип человеко-центричного надзора: пусть ИИ строит перенос и предлагает альтернативы, но финальная оценка остаётся за экспертом, который понимает, как именно могло «сломаться» рассуждение.
Тем временем сама идея «аналогии как ядра общего интеллекта» выходит за пределы когнитивной психологии и мигрирует в инженерные спецификации. В свежих обзорах аналогии называют «сквозным навыком» будущих AGI-систем — тем мостом, что соединяет обучение на прошлых данных с созданием правил для ситуаций, которых в данных не было. Новые результаты показывают: мост действительно строится, но из иного материала и с другой расчётной схемой, чем у человека.

