В мае Reuters получила копию внутреннего документа OpenAI, указывающего на работу над проектом Strawberry. Точная дата документа неизвестна, но он описывает план использования Strawberry для проведения исследований. План пока находится в стадии разработки. Согласно документу, модели Strawberry смогут вывести ИИ OpenAI за рамки простого ответа на запросы. Цель — научить модели заранее планировать действия и автономно перемещаться по интернету для проведения так называемых «глубоких исследований». У существующих ИИ-моделей таких навыков нет. Пока неясно, как скоро проект станет доступным для общественности. Детали функционирования «Strawberry» засекречены даже внутри OpenAI.
Работа над этим проектом началась еще в прошлом году, но тогда он носил название «Q*». Инцидент с увольнением главы OpenAI Сэма Альтмана произошел вскоре после запуска проекта и получения первых результатов. Двое сотрудников OpenAI сообщили, что в этом году они стали свидетелями демонстраций возможностей модели Q*. По их словам, эта модель отвечала на сложные научные вопросы и решала математические задачи.
На прошлой неделе в OpenAI прошло собрание, во время которого был продемонстрирован новый исследовательский проект — ИИ с улучшенными навыками рассуждения, похожими на человеческие.
Представитель OpenAI подтвердил встречу, но отказался раскрывать детали демонстрации. Reuters не смогли установить, был ли представлен именно проект Strawberry.
Предполагается, что эта разработка значительно улучшит способность ИИ-моделей рассуждать. Развитие способности к рассуждению у ИИ считается ключевым фактором для выполнения разных задач: от совершения научных открытий до создания новых программных приложений. Сэм Альтман заявил ранее в этом году, что «в области искусственного интеллекта самыми важными направлениями прогресса станет развитие способности к рассуждению».
В последние месяцы OpenAI в частном порядке намекала разработчикам и сторонним лицам, что находится на грани выпуска технологий с гораздо более продвинутыми возможностями рассуждения.
Strawberry использует специализированный метод пост-тренировки генеративных моделей ИИ. Метод предполагает, что модели дорабатываются для улучшения их работы в определенных областях после того, как их уже обучили на огромных массивах общих данных. Фаза пост-тренировки при разработке модели включает такие методы, как «тонкая настройка» — процесс, используемый практически для всех современных языковых моделей в разных вариантах. Например, можно давать модели обратную связь на основе ее ответов, а также предоставлять ей примеры хороших и плохих ответов.
У Strawberry есть сходства с методом, разработанным в Стэнфорде в 2022 году, под названием Self-Taught Reasoner или STaR. STaR позволяет моделям искусственного интеллекта самостоятельно «подтягиваться» к более высоким уровням интеллекта за счет итеративного создания собственных тренировочных данных. Теоретически его можно использовать для того, чтобы языковые модели превзошли человеческий интеллект.
В OpenAI нацелены на то, чтобы Strawberry выполняла сложные задачи, требующие планирования наперед и последовательного выполнения действий в течение длительного периода времени. Для этого компания обучает и оценивает модели на наборе данных «deep-research» («глубокое исследование»). Reuters не удалось определить, что находится в этом наборе данных. После обучения модель сможет автономно пользоваться интернетом и проводить исследования. В этом ей поможет специальный агент CUA, способный предпринимать действия на основе найденной информации. OpenAI также планирует поручить Strawberry задачи программистов и специалистов по машинному обучению.