Большие языковые модели-трансформеры используются в диалоговых ботах и других приложениях искусственного интеллекта. Они обрабатывают информацию через множество слоев, начиная с запроса и заканчивая выдачей результата. Принято считать, что сложные модели обладают нелинейной архитектурой, а линейные модели менее эффективны для сложных задач. Однако ученые обнаружили, что между слоями трансформеров существует высокая линейная зависимость, что открывает новые возможности для оптимизации.
Исследователи изучили устройство 20 известных языковых моделей и выявили, что информация между слоями передается с высокой линейностью. Это позволяет заменить сложные блоки трансформеров на более простые структуры без потери качества работы модели. Чтобы избежать негативных эффектов линейности, специалисты разработали специальный регуляризатор, который улучшает метрики качества моделей.
В ходе экспериментов выяснилось, что использование регуляризатора позволяет упростить 10-15% слоев модели без ухудшения их производительности. Это может значительно снизить нагрузку на вычислительные мощности и ускорить обучение моделей.
Андрей Белевцев, старший вице-президент Сбербанка, отметил, что потребность в вычислительных ресурсах является одним из главных вызовов в развитии ИИ-технологий. Он подчеркнул, что обнаруженная линейность в трансформерах позволяет существенно оптимизировать архитектуры моделей и снизить нагрузку на вычислительные мощности. В Сбере планируют протестировать новый метод и, в случае успеха, применить его к флагманским моделям генеративного ИИ.
Иван Оселедец, СЕО Института AIRI и профессор Сколтеха, рассказал, что исследователи смогли описать сложные процессы внутри трансформеров простыми средствами и предложили эффективный регуляризатор. Он отметил, что несмотря на контринтуитивность эффекта, метод позволяет экономить ресурсы на развёртке и инференсе больших языковых моделей. Регуляризатор уже доступен в открытом доступе для научного сообщества.
Исследование принято к публикации в сборнике трудов одной из наиболее престижных конференций в области искусственного интеллекта — ACL 2024.