Hitech logo

искусственный интеллект

Крупные языковые модели могут обучаться новым навыкам без больших данных

TODO:
Георгий Голованов7 февраля 2023 г., 11:35

Специалисты из MIT обнаружили, что массивные модели нейронных сетей могут содержать внутри своих скрытых слоев линейные модели меньших размеров. Их можно обучать выполнять новые задачи при помощи простых алгоритмов, на небольшом количестве примеров, без необходимости привлечения больших данных.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Крупные языковые модели вроде GPT способны генерировать связные тексты, от научных статей до поэзии. Пройдя обучение на огромном количестве данных, они берут небольшой отрывок текста и предсказывают то, что должно идти следом. Однако исследователи из MIT, Google Research и Стэнфордского университета изучили другую способность этих моделей — любопытный феномен «обучения в контексте» (in-context learning), когда крупные языковые модели учатся выполнять новые задачи всего по паре примеров.

Обычно для выполнения новой задач модель типа GPT-3 следовало бы переучить. В ходе этого процесса она обновляет свои параметры. Но в случае обучения в контексте ее параметры не обновляются, так что кажется, будто она учится новому навыку, не изучая вообще ничего. Эту загадку попытались раскрыть исследователи, рассказывает MIT News.

Результаты их работы показывают, что в крупных моделях могут прятаться более простыне, линейные модели меньшего размера. И если крупные модели применят простые алгоритмы обучения, то линейные модели можно научить новым навыкам при помощи только той информации, которая уже есть в крупной нейросети. И ее параметры сохраняется прежними.

«Надеюсь, это изменит мнение людей о контекстном обучении, — сказал Экин Акиюрек, ведущий исследователь проекта. — Эти модели не такие тупые, как считается. Они не только запоминают задачи. Они могут изучать новые задачи, и мы показали, как это делается».

Это исследование открывает путь к пониманию обучающих алгоритмов крупных моделей. В дальнейшем команда планирует проверить, способны ли линейные модели выполнять более сложные задачи, а также разобраться в типах данных, которые обеспечивают контекстное обучение.

Подразделение Google DeepMind AI разработало систему искусственного интеллекта AlphaCode, которая может генерировать код и решать задачи, предлагаемые на чемпионатах по программированию. Для этого нейросеть обучили двум языковым навыкам: пониманию постановки задачи и поиску её решения.