В отличие от большинства моделей, модели рассуждений проверяют сами себя, тратя больше времени на рассмотрение вопроса или запроса. Это помогает им избегать некоторых ловушек, которые обычно сбивают ИИ с толку. DeepSeek-R1 последовательно прорабатывает задачи, планирует решение и выполняет необходимые действия. Как и o1, в зависимости от сложности вопроса, DeepSeek-R1 может «думать» десятки секунд, прежде чем ответить.
DeepSeek заявляет, что модель DeepSeek-R1 (или, точнее, DeepSeek-R1-Lite-Preview) демонстрирует сопоставимые результаты с моделью OpenAI o1-preview на двух популярных бенчмарках для оценки языковых моделей: AIME и MATH. AIME использует другие языковые модели для оценки производительности, в то время как MATH представляет собой набор математических задач.
Однако модель не лишена недостатков. Некоторые пользователи X отметили, что DeepSeek-R1 испытывает трудности при решении логических задач, таких как игра в крестики-нолики (так же, как и модель o1). Кроме того, можно легко обойти защитные механизмы и заставить DeepSeek-R1 генерировать опасный контент. Например, одному из пользователей удалось получить от модели подробное описание процесса изготовления запрещенных веществ. DeepSeek-R1 также избегает вопросов, связанных с политическими темами. Она отказалась обсуждать китайского лидера Си Цзиньпина, события на площади Тяньаньмэнь и возможные последствия вторжения Китая в Тайвань.
Такое поведение, вероятно, обусловлено давлением со стороны китайских властей на местные проекты в области искусственного интеллекта. Модели ИИ в Китае обязаны проходить сертификацию у государственного регулятора интернет-пространства, чтобы гарантировать, что их ответы соответствуют «основным социалистическим ценностям». Сообщается, что правительство составило черный список источников данных, которые запрещено использовать для обучения моделей. Это приводит к тому, что многие китайские ИИ-системы отказываются отвечать на вопросы, способные вызвать недовольство регуляторов.
Интерес к моделям искусственного интеллекта, способным к рассуждениям, растет на фоне сомнений в эффективности традиционного подхода, основанного на увеличении объема данных и вычислительной мощности. Инструменты от ведущих компаний, включая OpenAI, Google и Anthropic, развиваются медленнее, чем раньше. В поисках новых решений исследователи обращаются к альтернативным подходам. Одним из таких методов стало вычисление во время тестирования (test-time compute), которое лежит в основе моделей o1 и DeepSeek-R1. Также известное как вычисление на этапе инференса, оно позволяет моделям использовать дополнительное время для выполнения задач.
DeepSeek планирует открыть исходный код модели DeepSeek-R1 и выпустить API. Ее финансирует китайский количественный хедж-фонд High-Flyer Capital Management, использующий искусственный интеллект для оптимизации торговых стратегий. Одна из первых моделей DeepSeek — универсальная система анализа текста и изображений DeepSeek-V2 — заставила конкурентов, таких как ByteDance, Baidu и Alibaba, снизить цены на использование своих моделей, а некоторые из них и вовсе сделать бесплатными.