Google обучила языковую модель с триллионом параметров

искусственный интеллект

Георгий Голованов14 января 2021 г., 09:48

Георгий Голованов14 января 2021 г., 09:48

Исследователи из Google разработали и испытали методы, позволяющие им обучать языковые модели, содержащие свыше 1,5 трлн параметров. У них получилась крупнейшая на сегодня модель, работающая в четыре раза быстрее, чем предыдущий рекордсмен компании — Т5-XXL. Экспериментальная модель Google почти в 10 раз превосходит по потенциалу и скорости обучения прорывной алгоритм GPT-3 от Open AI.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Параметры — важнейший элемент алгоритмов машинного обучения, особенно если речь идет о языковых моделях. Чем выше количество параметров, тем лучше справляется модель с генерацией текста. К примеру, у GPT-3, одной из самых крупных языковых моделей, 175 млрд параметров, поэтому она может проводить аналогии, создавать рецепты, писать стихи и кодировать.

Почему США, Китаю и России важно первыми установить на Луне атомный реактор

Масштабное обучение — эффективный способ создания мощных языковых моделей. Простая архитектура, подкрепленная крупными наборами данных и большим количеством параметров, превосходит намного более сложные алгоритмы. Но эффективное, масштабное обучение — крайне ресурсоемкий процесс. Вот почему исследователи из Google разработали метод Switch Transformer, при котором используется только подкласс веса модели, или параметров, которые трансформируют входящие данные внутри модели, сообщает Venture Beat.

Switch Transformer основан на работе различных «экспертов» или моделей, специализирующихся на выполнении различных задач, внутри более крупной модели. Его новшество заключается в эффективном использовании умножения плотных матриц — математических операций, широко использующихся в языковых моделях. В режиме тренировки модели распределяют вес по нескольким устройствам, так что вес возрастает вместе с количеством устройств, но поддерживает поддающуюся управлению память и вычислительную нагрузку на каждом устройстве.

Во время эксперимента они обучили несколько различных моделей с помощью 32-ядерного тензорного процессора на базе данных из 750 Гб текстов, взятых с Reddit, Wikipedia и других источников. И дали модели задачу подставить отсутствующие 15% слов во фразах. По сравнению с менее крупной Switch-XXL новая модель не продемонстрировала «никакой нестабильности обучения», хотя и набрала чуть меньше баллов (87,7 по сравнению с 98,6) в тесте. Разработчики объясняют это непрозрачным отношением между качеством настройки, вычислительными требованиями и числом параметров.

При этом Switch Transformer достиг в 7 раз большей скорости предварительного обучения при том же объеме вычислительных ресурсов. В тесте, где нужно было переводить между более чем 100 различными языками, модель показала четырехкратное увеличение скорости по сравнению с базовой.

В дальнейшем исследователи планируют применять Switch Transformer для решения новых задач, в том числе, включающих работу с текстом и изображениями. Они полагают, что эта модель способна обеспечить преимущества в мультимодальном режиме.

Разработанный исследователями из Google AI искусственный интеллект ALBERT занял первые места в двух крупных тестах на производительность среди моделей распознавания естественного языка. Модель ALBERT заработала 92,2 пункта в стэнфордском тесте SQUAD, в котором нужно было отвечать на вопросы, и 89,4 в тесте на оценку верности понимания языка GLUE.

Также по теме

Идеи

Твердотельные батареи QuantumScape выдержали 400 циклов быстрой зарядки

Идеи

Как инвестировать в NASDAQ ETF под 30% годовых в валюте

Идеи

Новое устройство производит больше тепла, чем считалось возможным

Идеи

Физики выдвинули новую теорию о том, где прячется темная материя

Новости СМИ2