Китайская ИИ-модель для программирования с открытым кодом обошла GPT-4 Turbo

Кейсы

Екатерина Шемякинская18 июня 2024 г., 19:05

Екатерина Шемякинская18 июня 2024 г., 19:05

Китайский стартап в области искусственного интеллекта DeepSeek выпустил языковую модель с открытым исходным кодом DeepSeek Coder V2. Инструмент превосходно справляется как с программированием, так и с математическими задачами. Он поддерживает более 300 языков программирования и превосходит по производительности современные модели с закрытым исходным кодом, включая GPT-4 Turbo, Claude 3 Opus и Gemini 1.5 Pro. По словам разработчиков, открытая модель впервые достигла такого результата, опередив Llama 3-70B и другие модели в этой категории. DeepSeek Coder V2 также обеспечивает сопоставимую производительность в общих рассуждениях и языковых возможностях.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Основанная в прошлом году DeepSeek стала заметным китайским игроком в гонке ИИ, присоединившись к таким компаниям, как Qwen, 01.AI и Baidu. В декабре 2023 года она выпустила DeepSeek Chat — конкурента ChatGPT, обученного на 2 трлн английских и китайских токенов. В течение года после запуска компания открыла исходный код ряда моделей, включая семейство DeepSeek Coder.

Конгрессу США показали видео как НЛО «поглотил» удар ракеты Hellfire

Первая версия DeepSeek Coder, обладающая до 33 млрд параметров, показала неплохие результаты в тестах, демонстрируя возможности вроде автодополнения кода на уровне проекта и заполнения пробелов. Однако она поддерживала всего 86 языков программирования и имела окно контекста 16 000 токенов. В новой версии V2 поддерживается до 338 языков программирования, а контекстное окно увеличено до 128 000 токенов. Это позволяет ей справляться с более сложными и масштабными задачами программирования.

Модель проверили на тестах MBPP+, HumanEval и Aider, разработанных для оценки возможностей больших языковых моделей по генерации, редактированию кода и решению задач. DeepSeek Coder V2 набрала 76,2, 90,2 и 73,7 баллов соответственно. Это ставит ее выше большинства закрытых и открытых моделей, включая GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro, Codestral и Llama-3 70B. Аналогичная производительность наблюдалась в тестах, предназначенных для оценки математических возможностей модели (MATH и GSM8K).

Единственной моделью, которой удалось превзойти DeepSeek по нескольким тестам, была GPT-4o, которая получила немного более высокие оценки в HumanEval, LiveCode Bench, MATH и GSM8K.

DeepSeek объясняет достигнутый технический прогресс и улучшение производительности использованием языковой модели DeepSeek V2, основанной на их собственной архитектуре Mixture of Experts (смесь экспертов). По сути, компания предварительно обучила базовую модель V2 на дополнительном наборе данных объемом 6 трлн токенов, который в основном состоит из информации, связанной с кодом и математикой, полученной из GitHub и CommonCrawl. Модель поставляется с опциями параметров 16 млрд и 236 млрд. Но архитектура Mixture of Experts позволяет ей активировать только «экспертные» параметры (2,4 млрд и 21 млрд) для решения поставленных задач, а также оптимизировать ее для различных потребностей вычислений и приложений.

Помимо превосходных результатов в задачах, связанных с кодом и математикой, DeepSeek Coder V2 также демонстрирует достойную производительность в общих рассуждениях и понимании языка.

Например, в тесте MMLU, предназначенном для оценки понимания языка, она набрала 79,2 балла. Это значительно выше показателей других моделей, специализирующихся на коде, и почти соответствует результату Llama-3 — 70B. Лидерами категории MMLU по-прежнему остаются GPT-4o и Claude 3 Opus с результатами 88,7 и 88,6 баллов соответственно. DeepSeek Coder V2 также оставила позади GPT-4 Turbo.

DeepSeek Coder V2 предлагается под лицензией MIT, которая допускает как исследовательское, так и коммерческое использование. Пользователи могут загрузить обе версии модели (16 млрд и 236 млрд параметров) через платформу Hugging Face. В качестве альтернативы компания предоставляет доступ к моделям через API за оплату по мере использования. Те, кто хочет сначала опробовать возможности моделей, могут пообщаться с DeepSeek Coder V2 через чат-бот.

Также по теме

Кейсы

Аэростаты Loon вместе с AT&T обеспечат роуминг в чрезвычайных ситуациях

Кейсы

CEO Calltouch: что такое сквозная аналитика и нестандартный маркетинг

Кейсы

"Персеверанс" обнаружил на Марсе уникальный белый камень

Кейсы

В Китае построили самую глубокую в мире лабораторию по поиску темной материи

Новости СМИ2