Вышла улучшенная версия DeepSeek — на уровне с GPT-5, но на порядок дешевле

Кейсы

Екатерина Шемякинская20 августа, 09:15

Екатерина Шемякинская20 августа, 09:15

Китайский стартап DeepSeek тихо выпустил новую модель DeepSeek V3.1 с 685 млрд параметров, сразу сделав её доступной на Hugging Face. Модель обрабатывает до 128 тысяч токенов контекста, поддерживает разные режимы точности и быстро обрабатывает даже большие объемы данных. Главный прорыв V3.1 заключается в её гибридной архитектуре, объединяющей функции чата, логического рассуждения и программирования в одной системе. По производительности DeepSeek сравнима с последними моделями OpenAI и Anthropic, при этом использование системы обходится почти на 2 порядка дешевле.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Вместо громкой презентации разработчики просто загрузили DeepSeek V3.1 на платформу Hugging Face. Этот «скромный» шаг резко контрастировал с масштабом события: новая система сразу стала предметом обсуждения в сообществе и вызовом для бизнес-моделей западных лидеров, полагающихся на закрытые API и высокие тарифы.

«Если ИИ — это мозг робота, то RPA — его руки». Что умеют программные роботы

По своим возможностям DeepSeek V3.1 не уступает самым продвинутым моделям в мире. Она способна работать с контекстом до 128 тысяч токенов — это примерно объем книги на 400 страниц. При этом отвечает заметно быстрее, чем решения, построенные только на логическом анализе. Модель поддерживает разные режимы точности, что дает разработчикам свободу: можно настроить систему так, чтобы она максимально эффективно работала на доступном оборудовании.

Главный прорыв DeepSeek V3.1 — её «гибридная архитектура», которая органично объединяет возможности чата, логического рассуждения и программирования в одной модели. Внутри системы обнаружены специальные токены, отвечающие за поиск в интернете в реальном времени и за процессы «мышления». Ранее попытки объединить разные функции ИИ, например, в первых версиях китайской модели Qwen, часто снижали эффективность. DeepSeek удалось преодолеть эти проблемы и создать сбалансированную гибридную систему.

В тесте по программированию Aider-Non-Reasoning SOTA модель DeepSeek V3.1 показала 71,6%, встав на один уровень с Claude Opus 4 от Anthropic и лишь немного уступая новейшим версиям GPT. При этом выполнение полной задачи с помощью DeepSeek стоило всего около $1 — в 68 раз дешевле, чем у конкурентов.

DeepSeek рассчитала время выпуска с хирургической точностью: версия 3.1 появилась всего через несколько недель после анонса GPT-5 от OpenAI и Claude 4 от Anthropic. Обе эти модели позиционируются как передовые. Сравнявшись с ними по производительности и при этом сохранив открытый исходный код, DeepSeek бросает вызов существующим бизнес-моделям, лежащим в основе лидерства США в области ИИ.

В то время как американские компании строго контролируют доступ к своим системам, c дорогим API и ограничениями на использование, DeepSeek предоставляет аналогичные возможности бесплатно в любой точке мира. Этот подход отражает различия в философии развития ИИ: американские компании рассматривают модели как ценную интеллектуальную собственность, тогда как китайские всё чаще видят в передовом ИИ общественное благо, ускоряющее инновации через открытый доступ.

Также по теме

Кейсы

Edutoria открыла приём заявок на ежегодный конкурс «Давай научим!»

Кейсы

В Великобритании испытают робоавтобус без подстраховки

Кейсы

Ученые использовали ДНК, сохраненную в полимере, как новый тип жесткого диска

Кейсы

Стартап напечатал дом за 12 часов

Новости СМИ2