Hitech logo

Кейсы

OpenAI выпустила GPT-4o — самую быструю и «эмоциональную» ИИ-модель

TODO:
Екатерина Смирнова14 мая, 09:06

OpenAI представила GPT-4o — обновленную версию языковой модели, лежащей в основе чат-бота ChatGPT. Новая модель работает намного быстрее (время ответа сократилось с 2-3 секунд до 320 миллисекунд) и обладает улучшенными возможностями в работе с текстом, изображениями и звуком. ChatGPT станет голосовым помощником, который постоянно наблюдает за окружающим миром, как в фильме «Она». Демонстрации показывают, что GPT-4o может имитировать человеческие эмоции, смеяться над шутками, и, в целом, отвечает пользователям очень естественно. GPT-4o будет бесплатной, но платные подписчики смогут отправлять в пять раз больше запросов. В тестах на Chatbot Arena новая модель OpenAI обогнала всех, включая Claude 3 Opus и GPT-4 Turbo.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В своем блоге OpenAI сообщает, что возможности GPT-4o будут внедряться постепенно, однако его текстовые и визуальные функции начнут появляться в ChatGPT уже сейчас. Главный исполнительный директор OpenAI Сэм Альтман заявил, что модель GPT-4o является «мультимодальной изначально», что означает, что она может генерировать контент или понимать команды голосом, текстом или изображениями. Разработчики, желающие поэкспериментировать с GPT-4o, получат доступ к API, который вдвое быстрее и вдвое дешевле GPT-4 Turbo, добавил Альтман.

В голосовой режим ChatGPT добавятся новые функции. Чат-бот сможет работать как голосовой помощник, отвечая в режиме реального времени и наблюдая за окружающим миром. Текущий голосовой режим более ограничен: он реагирует только на один запрос за раз и работает только с тем, что слышит. Arstechnica, изучив более десятка видеодемонстраций новой модели OpenAI, заключило, что она стала более человечной. По мнению издания, грядет «кардинальное изменение того, как мы воспринимаем и взаимодействуем с большими языковыми моделями».

Например, ChatGPT-4o может посмеяться над шуткой пользователя или мило отреагировать на видео с его домашним питомцем. Интонации при этом звучат очень естественно. В одном из видеороликов пользователь знакомит ChatGPT-4o со своим другом Джорданом, напротив которого стоит кусочек торта со свечей. ИИ тут же понимает, что у друга день рождения. Джордан просит модель спеть ему, после чего ChatGPT-4o исполняет Happy Birthday. Еще один ролик демонстрирует, как ИИ наблюдает за тем, как два сотрудника OpenAI играют в «Камень, ножницы, бумага» и комментирует состязание, словно спортивный телеведущий. В другом видео пользователь узнает у ИИ, подходит ли его внешний вид для собеседования в OpenAI. Причем, когда человек спрашивает у бота, слышал ли он про OpenAI, тот будто хитро посмеивается и отвечает «Да, что-то знакомое…». Чат-бот может общаться как женским, так и мужским голосом.

Если эти демонстрации действительно отражают голосовые возможности ChatGPT-4o, то нас ждет совершенно новый уровень парасоциальных отношений между ИИ-ассистентом и пользователями, пишет Arstechnica. Уже много лет текстовые чат-боты используют «когнитивные сбои» людей, чтобы заставить их поверить в свою разумность. Способность ChatGPT-4o имитировать человеческие эмоции может убедить много пользователей в том, что ИИ на самом деле получил сознание. Скорость модели тоже изменит взаимодействие с чат-ботами. Время ожидания ответа сократилось с 2-3 секунд у ChatGPT-4 до заявленных 320 миллисекунд у GPT-4o. Это позволит общаться без пауз, как в настоящем разговоре. Более того, GPT-4o может прерывать пользователя на полуслове.

Несмотря на демонстрацию впечатляющих возможностей в тщательно отобранных примерах, GPT-4o все же демонстрирует явные пробелы в своих способностях. Особенно это заметно в банальности и шаблонности некоторых ответов, которые даже искусная озвучка не может скрыть. Например, на сообщение пользователя о подготовке к объявлению ИИ отвечает бездумной фразой, а в обсуждении собак и кошек скатывается к банальному «Я понимаю привлекательность обоих». Также вызывает беспокойство то, как склонность больших языковых моделей к галлюцинациям будет сочетаться с этой новой моделью взаимодействия. Одно дело — увидеть заведомо неверный ответ в текстовом чате, другое — услышать, как чат-бот убедительным тоном пытается доказать, что 2 + 2 = 5.

Интересно, что OpenAI в апреле тайно тестировала несколько версий GPT-4o на Chatbot Arena LMSYS, участвуя в рейтинге чат-ботов под вымышленными именами. Chatbot Arena — это веб-сайт, где посетители могут общаться с двумя случайными моделями искусственного интеллекта одновременно. При этом пользователи не знают, какая модель какая. После общения посетители выбирают, какой ИИ дал лучший ответ. GPT-4o показала превосходные результаты, обогнав все другие модели в рейтинге, например, предыдущих лидеров Claude 3 Opus и GPT-4 Turbo. Это свидетельствует о ее значительном прогрессе в области естественного языка и способности вести беседы.

После анонса модели Сэм Альтман в своем блоге рассказал о том, как изменились цели компании. Первоначальной целью OpenAI было «создать всевозможные блага для мира». Однако сейчас компания фокусируется на том, чтобы сделать свои передовые модели ИИ доступными разработчикам через платные API. Это позволит сторонним компаниям создавать новые приложения и сервисы на основе ИИ OpenAI. Альтман считает, что такой подход принесет больше пользы, чем просто открытие исходного кода. До запуска GPT-4o ходили слухи, что OpenAI представит поисковую систему с ИИ, голосового помощника или новую модель GPT-5. В итоге компания анонсировала GPT-4o, что совпало с конференцией Google I/O, где ожидается запуск различных продуктов искусственного интеллекта от команды Gemini.