Hitech logo

Идеи

Дуглас Хэвен: «Никто толком не знает, почему работают большие языковые модели»

TODO:
Екатерина Шемякинская10 марта, 13:49

Большие языковые модели ведут себя так, как, согласно учебникам математики, вести себя не должны. Несмотря на успех технологии глубокого обучения, никто точно не знает, как и почему она работает, сообщает в редакционной колонке MIT Technology Review. А некоторые принципы обучения искусственного интеллекта противоречат классической статистике. В результате возникают такие необъяснимые эффекты как «двойной спуск». В этом случае ИИ-модели удается избежать проблем с обобщением данных, которые должны неизбежно возникать с увеличением ее параметров. Если ученым удастся создать фундаментальную теорию глубокого обучения, это позволит сделать ИИ-технологии более предсказуемыми и эффективными.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Большие языковые модели (LLM) могут обобщать знания и выполнять задачи на новых примерах, на которых они не обучались. Модели не только запоминают статистические закономерности, которые видели в обучающем наборе, но и находят общие правила, которые позволяют им применять эти закономерности на новых данных. Например, модель может изучить математические задачи на английском языке, а затем, используя свои знания из французской литературы, применить их для решения математических задач уже на французском. Такое поведение моделей выходит за рамки статистических связей, констатирует Уилл Дуглас Хэвен, старший редактор MIT Technology Review.

Самые мощные модели сегодня содержат до триллиона параметров. Статистика говорит, что по мере того, как модели становятся больше, их производительность сначала должна улучшаться, а затем ухудшаться. Это происходит из-за так называемого переоснащения (overfitting). Чем больше модель, тем больше вероятность ее переоснащения. Это означает, что она начинает слишком точно соответствовать обучающим данным, но при этом теряет способность обобщать новые данные.

Ученые считали, что есть золотая середина, которую должна найти модель, чтобы обобщение было возможным. Но на деле все происходит иначе.

В процессе оценки производительности модели часто используется показатель количества ошибок, который обычно снижается с ростом производительности. В течение десятилетий считалось, что частота ошибок сначала уменьшается, а затем нарастает с увеличением размера моделей. Это представляется в виде U-образной кривой, где наилучший момент для обобщения находится в нижней точке.

Однако в 2018 году исследователи обнаружили, что некоторые модели показывают другое поведение, называемое двойным спуском или W-образной кривой. В этом случае, с ростом размера моделей, уровень ошибок сначала снижается, затем увеличивается и снова снижается. То есть большие модели каким-то образом преодолевают проблему переоснащения и становятся еще лучше с увеличением их размера. Год спустя исследователи, показали, что феномен двойного спуска встречается чаще не только с увеличением размера моделей, но и при использовании больших объемов обучающих данных или долгом обучении. Это поведение, названное «доброкачественным переобучением», до сих пор не изучено полностью.

Ученые предлагали разные объяснения этому явлению.

Так, группа исследователей из Кембриджа предположила, что феномен двойного спуска — это иллюзия, обусловленная способом измерения сложности моделей. Изначально для измерения сложности использовалось количество параметров, но это не лучший показатель, поскольку добавление параметров иногда делает модель более сложной, а иногда — менее. Иными словами, если использовать другую меру сложности, большие модели могут вполне соответствовать классической статистике.

Это лишь одна из загадок, связанных с ИИ. Ученым важно, подкреплен ли ИИ классической статистикой, поскольку лучшее теоретическое понимание поможет создать более эффективные и предсказуемые инструменты. Многое из того, на что способен OpenAI GPT-4, стало неожиданностью даже для людей, которые его создали. Без фундаментальной теории трудно понять, чего можно ожидать от искусственного интеллекта, говорят ученые. Кроме того, это поможет предвидеть возможные риски.