Представлен китайский аналог о1 от OpenAI — «рассуждающая» модель DeepSeek-R1

Кейсы

Екатерина Шемякинская21 ноября 2024 г., 10:26

Екатерина Шемякинская21 ноября 2024 г., 10:26

Китайская компания DeepSeek выпустила модель искусственного интеллекта DeepSeek-R1, которая позиционируется как конкурент o1 от OpenAI. Эта модель рассуждений проверяет саму себя и последовательно прорабатывает задачи. DeepSeek-R1 демонстрирует сопоставимые с o1 результаты на бенчмарках AIME и MATH, успешно решая текстовые и математические задачи. Но у нее есть трудности с решением логических задач и уязвимости, позволяющие обходить встроенные механизмы защиты.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В отличие от большинства моделей, модели рассуждений проверяют сами себя, тратя больше времени на рассмотрение вопроса или запроса. Это помогает им избегать некоторых ловушек, которые обычно сбивают ИИ с толку. DeepSeek-R1 последовательно прорабатывает задачи, планирует решение и выполняет необходимые действия. Как и o1, в зависимости от сложности вопроса, DeepSeek-R1 может «думать» десятки секунд, прежде чем ответить.

Конгрессу США показали видео как НЛО «поглотил» удар ракеты Hellfire

DeepSeek заявляет, что модель DeepSeek-R1 (или, точнее, DeepSeek-R1-Lite-Preview) демонстрирует сопоставимые результаты с моделью OpenAI o1-preview на двух популярных бенчмарках для оценки языковых моделей: AIME и MATH. AIME использует другие языковые модели для оценки производительности, в то время как MATH представляет собой набор математических задач.

Однако модель не лишена недостатков. Некоторые пользователи X отметили, что DeepSeek-R1 испытывает трудности при решении логических задач, таких как игра в крестики-нолики (так же, как и модель o1). Кроме того, можно легко обойти защитные механизмы и заставить DeepSeek-R1 генерировать опасный контент. Например, одному из пользователей удалось получить от модели подробное описание процесса изготовления запрещенных веществ. DeepSeek-R1 также избегает вопросов, связанных с политическими темами. Она отказалась обсуждать китайского лидера Си Цзиньпина, события на площади Тяньаньмэнь и возможные последствия вторжения Китая в Тайвань.

Такое поведение, вероятно, обусловлено давлением со стороны китайских властей на местные проекты в области искусственного интеллекта. Модели ИИ в Китае обязаны проходить сертификацию у государственного регулятора интернет-пространства, чтобы гарантировать, что их ответы соответствуют «основным социалистическим ценностям». Сообщается, что правительство составило черный список источников данных, которые запрещено использовать для обучения моделей. Это приводит к тому, что многие китайские ИИ-системы отказываются отвечать на вопросы, способные вызвать недовольство регуляторов.

Интерес к моделям искусственного интеллекта, способным к рассуждениям, растет на фоне сомнений в эффективности традиционного подхода, основанного на увеличении объема данных и вычислительной мощности. Инструменты от ведущих компаний, включая OpenAI, Google и Anthropic, развиваются медленнее, чем раньше. В поисках новых решений исследователи обращаются к альтернативным подходам. Одним из таких методов стало вычисление во время тестирования (test-time compute), которое лежит в основе моделей o1 и DeepSeek-R1. Также известное как вычисление на этапе инференса, оно позволяет моделям использовать дополнительное время для выполнения задач.

DeepSeek планирует открыть исходный код модели DeepSeek-R1 и выпустить API. Ее финансирует китайский количественный хедж-фонд High-Flyer Capital Management, использующий искусственный интеллект для оптимизации торговых стратегий. Одна из первых моделей DeepSeek — универсальная система анализа текста и изображений DeepSeek-V2 — заставила конкурентов, таких как ByteDance, Baidu и Alibaba, снизить цены на использование своих моделей, а некоторые из них и вовсе сделать бесплатными.

Также по теме

Кейсы

Walmart открывает первый ИИ-магазин

Кейсы

Китай построил и второй год скрывает первый в мире "дрононосец"

Кейсы

В США испытали БПЛА с пульсирующим реактивным двигателем

Кейсы

Новые спутники Starlink в три раза тяжелее и в четыре раза мощнее

Новости СМИ2