Hitech logo

Кейсы

OpenAI представила новую модель o1: она «думает» перед ответом

TODO:
Екатерина Шемякинская13 сентября, 08:57

OpenAI представила o1 — первую в запланированной серии «рассуждающих» моделей, способных отвечать на более сложные вопросы быстрее человека. Модель, которая ранее носила кодовое название Strawberry, была выпущена вместе с более компактной и дешевой версией o1-mini. Сообщается, что o1 лучше справляется с написанием кода, математикой и решением многоэтапных задач, чем ее предшественники. Процесс обучения модели был принципиально иным, в результате она может «думать», прежде чем выдать ответ. Вместе с тем новинка уступает GPT-4o в знании фактов, а также не может использовать интернет и обрабатывать файлы. Еще o1 работает медленнее и стоит сильно дороже GPT-4o. OpenAI называет выпуск o1 «предварительным».

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Пользователи ChatGPT Plus и Team уже получили доступ к o1-preview и o1-mini, а для Enterprise и Edu модель станет доступна в начале следующей недели. OpenAI также планирует предоставить доступ к o1-mini всем бесплатным пользователям ChatGPT, но пока не установила дату выпуска. Доступ разработчиков к o1 дорогой: API o1-preview стоит $15 за 1 млн входных токенов (фрагментов текста, проанализированных моделью), и $60 за 1 млн выходных токенов. Для сравнения, GPT-4o стоит $5 за 1 млн входных токенов и $15 за 1 млн выходных токенов.

Процесс обучения o1 кардинально отличается от применявшихся ранее методов. Для тренировки модели был разработан новый алгоритм оптимизации и набор данных, разработанный специально для нее. Ранее OpenAI обучала модели GPT, по сути, копировать то, что они видели в своих обучающих данных. В случае с o1 был применен иной подход: модель научилась самостоятельно решать задачи благодаря обучению с подкреплением. Этот метод предполагает поощрение правильных действий и наказание за ошибки. Кроме того, модель использует механизм «цепочки рассуждений», позволяющий ей последовательно анализировать запросы, подобно тому, как это делают люди. Система «думает», прежде чем отвечать. В результате o1 стала более точной и галлюцинирует меньше. Впрочем, полностью эта проблема не исчезла.

Главное, что отличает новую модель от GPT-4o, — способность решать сложные задачи, связанные с написанием кода, математикой и анализом данных, гораздо лучше, чем ее предшественники, а также объяснять свои рассуждения. OpenAI протестировала o1 на квалификационном экзамене для Международной математической олимпиады. В то время как GPT-4o решила правильно только 13% задач, o1 набрала 83%. В онлайн-соревнованиях по программированию Codeforces новая модель продемонстрировала результаты, соответствующие 89-му процентилю участников. По прогнозам OpenAI, следующая версия будет показывать результаты, сопоставимые с умозаключениями аспирантов в сложных контрольных заданиях по физике, химии и биологии.

Модель o1 пока уступает GPT-4o во многих отношениях. Например, она не так хорошо знает факты, не может искать информацию в интернете и обрабатывать файлы. Тем не менее, компания считает, что эта модель открывает совершенно новое направление в развитии искусственного интеллекта. Название «o1» символизирует начало нового этапа.

Журналисту The Verge продемонстрировали работу o1, попросив ее решить следующую задачу: «Принцессе столько лет, сколько будет принцу, когда принцессе будет вдвое больше, чем было принцу, когда возраст принцессы был вдвое меньше суммы их нынешних возрастов. Сколько лет принцу и принцессе? Приведите все решения этого вопроса». Модель обрабатывала запрос 30 секунд, после чего выдала верный ответ. OpenAI разработала интерфейс, демонстрирующий ход рассуждений модели в реальном времени. o1 использовала такие фразы, как «Мне интересно», «Я размышляю» и «Хорошо, давайте посмотрим», что создавало иллюзию мыслительного процесса. На самом деле сознания у нее нет, и такой интерфейс разработчики сделали, чтобы показать, что она «глубже погружается в проблемы» и более «человечна».