Hitech logo

Кейсы

«Сбер» открыл доступ к русскоязычной ИИ-модели ruGPT-3.5

TODO:
Екатерина Шемякинская21 июля 2023 г., 10:26

Инженеры «Сбера» опубликовали в открытом доступе нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который находится в стадии закрытого тестирования. Разработчики предоставили лицензию MIT, что дает возможность использовать материалы проекта в коммерческих целях. Модель разработана специально для работы в русскоязычной среде и лучше понимает запросы на русском, чем иностранные модели.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Одна из основных проблем открытых больших языковых моделей — ограниченная поддержка русского языка. Обычно такие модели обучаются на русском разделе «Википедии» и лишь небольшом объеме общедоступных текстов на русском языке. Это сказывается на качестве понимания языка и ответов модели, ограничивая способность точно обработать запросы на русском языке.

Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, разработана специально для работы в русскоязычной среде и качественнее обрабатывает запросы на русском языке. Это делает ruGPT-3.5 более эффективным решением для задач, связанных с русскоязычным контентом.

Процесс обучения модели проходил в два этапа. На первом этапе, который занял 1,5 месяца, платформа обработала общий объем данных в 300 ГБайт. Эти данные включали в себя книги, научные статьи, энциклопедические записи, контент из социальных ресурсов и другие источники. Для успешного завершения этого этапа использовалось 512 ускорителей NVIDIA V100.

Второй этап предполагал дообучение модели на 110 ГБайт данных из датасета The Stack, юридических документов и обновленных текстов из «Википедии». Проведение этого этапа заняло три недели, и для его выполнения потребовалось 200 ускорителей NVIDIA A100.

В итоге ruGPT-3.5 содержит 13 млрд параметров при длине контекста 2048 токенов. В качестве сравнения разработчики предлагают рассказ А. П. Чехова «Хамелеон», который разбивается на 1650 токенов при его длине в 901 слово.