Hitech logo

Кейсы

Китайцы обучили передовую БЯМ с затратами в 30 раз ниже, чем у OpenAI

TODO:
Екатерина Смирнова15 ноября, 10:12

Из-за отсутствия доступа к тысячам передовых графических процессоров от таких производителей, как Nvidia, китайским компаниям приходится искать новые подходы для обучения моделей искусственного интеллекта. Основатель и руководитель стартапа 01.ai Кай-Фу Ли сообщил, что им удалось обучить передовую ИИ-модель, используя 2000 графических процессоров и затратив всего $3 млн. Для сравнения, на обучение GPT-4 OpenAI потратили $80–100 млн, а обучение GPT-5, по сообщениям, обошлось в $1 млрд.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Компания 01.ai создала высокопроизводительную модель Yi-Lightning, затратив всего $3 млн, что в 25-30 раз меньше, чем расходы OpenAI на GPT-4. Согласно независимой оценке, проведенной Калифорнийским университетом в Беркли, Yi-Lightning занимает шестое место по производительности среди существующих языковых моделей.

«Моих друзей из Силиконовой долины шокирует не только производительность нашей модели, но и то, что мы обучили ее всего за $3 млн, в то время как на обучение GPT-4 потратили от $80-100 млн, а на GPT-5, по слухам, около $1 млрд», — написал Кай-Фу Ли. Он также отметил, что, будучи китайской компанией, 01.ai сталкивается с ограниченным доступом к графическим процессорам из-за санкций США. Поэтому им сложнее работать по сравнению с американскими конкурентами.

Считается, что для обучения модели GPT-3 OpenAI использовала 10 000 графических процессоров Nvidia A100, а для GPT-4 и GPT-4o потребовалось еще больше процессоров H100. Компании 01.ai удалось обучить свою модель Yi-Lightning на 2000 неназванных графических процессорах благодаря ряду технологических решений. В прошлом году Кай-Фу Ли сообщил о том, что у его компании достаточно вычислительных ресурсов для работы в течение 1,5 лет.

Компания 01.ai значительно снизила стоимость вывода своей языковой модели за счет оптимизации процессов обработки данных. Инженеры перевели фокус с ресурсоемких вычислений на более эффективные операции с памятью, создали многоуровневую систему кэширования и разработали специализированный механизм вывода. Благодаря этим инновациям стоимость обработки одного миллиона токенов снизилась до 10 центов, что примерно в 30 раз меньше среднерыночной цены на аналогичные услуги.

Китайские компании, в том числе стартап 01.ai, сталкиваются с серьезными трудностями. Из-за американских экспортных ограничений у них почти нет доступа к передовым графическим процессорам, необходимым для разработки и обучения моделей искусственного интеллекта. Кроме того, компании из Поднебесной, как правило, имеют более низкую рыночную капитализацию по сравнению с американскими конкурентами, что ограничивает их возможности привлекать инвестиции и развиваться.

Достижение китайских разработчиков показывает, что для создания передовых ИИ-систем не всегда нужны огромные инвестиции. Тщательная инженерная работа и оптимизация позволяют достичь аналогичных результатов при значительно меньших затратах.