Параметры — важнейший элемент алгоритмов машинного обучения, особенно если речь идет о языковых моделях. Чем выше количество параметров, тем лучше справляется модель с генерацией текста. К примеру, у GPT-3, одной из самых крупных языковых моделей, 175 млрд параметров, поэтому она может проводить аналогии, создавать рецепты, писать стихи и кодировать.
Масштабное обучение — эффективный способ создания мощных языковых моделей. Простая архитектура, подкрепленная крупными наборами данных и большим количеством параметров, превосходит намного более сложные алгоритмы. Но эффективное, масштабное обучение — крайне ресурсоемкий процесс. Вот почему исследователи из Google разработали метод Switch Transformer, при котором используется только подкласс веса модели, или параметров, которые трансформируют входящие данные внутри модели, сообщает Venture Beat.
Switch Transformer основан на работе различных «экспертов» или моделей, специализирующихся на выполнении различных задач, внутри более крупной модели. Его новшество заключается в эффективном использовании умножения плотных матриц — математических операций, широко использующихся в языковых моделях. В режиме тренировки модели распределяют вес по нескольким устройствам, так что вес возрастает вместе с количеством устройств, но поддерживает поддающуюся управлению память и вычислительную нагрузку на каждом устройстве.
Во время эксперимента они обучили несколько различных моделей с помощью 32-ядерного тензорного процессора на базе данных из 750 Гб текстов, взятых с Reddit, Wikipedia и других источников. И дали модели задачу подставить отсутствующие 15% слов во фразах. По сравнению с менее крупной Switch-XXL новая модель не продемонстрировала «никакой нестабильности обучения», хотя и набрала чуть меньше баллов (87,7 по сравнению с 98,6) в тесте. Разработчики объясняют это непрозрачным отношением между качеством настройки, вычислительными требованиями и числом параметров.
При этом Switch Transformer достиг в 7 раз большей скорости предварительного обучения при том же объеме вычислительных ресурсов. В тесте, где нужно было переводить между более чем 100 различными языками, модель показала четырехкратное увеличение скорости по сравнению с базовой.
В дальнейшем исследователи планируют применять Switch Transformer для решения новых задач, в том числе, включающих работу с текстом и изображениями. Они полагают, что эта модель способна обеспечить преимущества в мультимодальном режиме.
Разработанный исследователями из Google AI искусственный интеллект ALBERT занял первые места в двух крупных тестах на производительность среди моделей распознавания естественного языка. Модель ALBERT заработала 92,2 пункта в стэнфордском тесте SQUAD, в котором нужно было отвечать на вопросы, и 89,4 в тесте на оценку верности понимания языка GLUE.