Одна из основных проблем открытых больших языковых моделей — ограниченная поддержка русского языка. Обычно такие модели обучаются на русском разделе «Википедии» и лишь небольшом объеме общедоступных текстов на русском языке. Это сказывается на качестве понимания языка и ответов модели, ограничивая способность точно обработать запросы на русском языке.
Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, разработана специально для работы в русскоязычной среде и качественнее обрабатывает запросы на русском языке. Это делает ruGPT-3.5 более эффективным решением для задач, связанных с русскоязычным контентом.
Процесс обучения модели проходил в два этапа. На первом этапе, который занял 1,5 месяца, платформа обработала общий объем данных в 300 ГБайт. Эти данные включали в себя книги, научные статьи, энциклопедические записи, контент из социальных ресурсов и другие источники. Для успешного завершения этого этапа использовалось 512 ускорителей NVIDIA V100.
Второй этап предполагал дообучение модели на 110 ГБайт данных из датасета The Stack, юридических документов и обновленных текстов из «Википедии». Проведение этого этапа заняло три недели, и для его выполнения потребовалось 200 ускорителей NVIDIA A100.
В итоге ruGPT-3.5 содержит 13 млрд параметров при длине контекста 2048 токенов. В качестве сравнения разработчики предлагают рассказ А. П. Чехова «Хамелеон», который разбивается на 1650 токенов при его длине в 901 слово.