Крупные языковые модели вроде GPT способны генерировать связные тексты, от научных статей до поэзии. Пройдя обучение на огромном количестве данных, они берут небольшой отрывок текста и предсказывают то, что должно идти следом. Однако исследователи из MIT, Google Research и Стэнфордского университета изучили другую способность этих моделей — любопытный феномен «обучения в контексте» (in-context learning), когда крупные языковые модели учатся выполнять новые задачи всего по паре примеров.
Обычно для выполнения новой задач модель типа GPT-3 следовало бы переучить. В ходе этого процесса она обновляет свои параметры. Но в случае обучения в контексте ее параметры не обновляются, так что кажется, будто она учится новому навыку, не изучая вообще ничего. Эту загадку попытались раскрыть исследователи, рассказывает MIT News.
Результаты их работы показывают, что в крупных моделях могут прятаться более простыне, линейные модели меньшего размера. И если крупные модели применят простые алгоритмы обучения, то линейные модели можно научить новым навыкам при помощи только той информации, которая уже есть в крупной нейросети. И ее параметры сохраняется прежними.
«Надеюсь, это изменит мнение людей о контекстном обучении, — сказал Экин Акиюрек, ведущий исследователь проекта. — Эти модели не такие тупые, как считается. Они не только запоминают задачи. Они могут изучать новые задачи, и мы показали, как это делается».
Это исследование открывает путь к пониманию обучающих алгоритмов крупных моделей. В дальнейшем команда планирует проверить, способны ли линейные модели выполнять более сложные задачи, а также разобраться в типах данных, которые обеспечивают контекстное обучение.
Подразделение Google DeepMind AI разработало систему искусственного интеллекта AlphaCode, которая может генерировать код и решать задачи, предлагаемые на чемпионатах по программированию. Для этого нейросеть обучили двум языковым навыкам: пониманию постановки задачи и поиску её решения.