Hitech logo

искусственный интеллект

OpenAI представила GPT-4 — модель теперь понимает текст и изображения

TODO:
Георгий Голованов15 марта 2023 г., 10:08

Спустя месяцы слухов и домыслов OpenAI, наконец, представила GPT-4 — новейшее поколение языковой модели, которую использует нашумевший чатбот ChatGPT и обновленный поисковик Microsoft Bing. По словам разработчиков, GPT-4 стала «более творческой и готовой к сотрудничеству, чем когда бы то ни было» и «может решать сложные проблемы с большей точностью». Например, обрабатывать запросы в виде изображений, а не только текста. Однако модель унаследовала главные проблемы своих предшественников, включая склонность к выдумыванию информации.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Как заявили представители OpenAI, ряд компаний — в частности, Duolingo, Stripe и Khan Academy — уже подписал соглашения по интеграции GPT-4 в собственные продукты. Публике новая модель доступна через подписку ChatGPT Plus за $20 в месяц, а также опосредованно через чатбот Bing. Также ее смогут использовать пользователи API, сообщает Verge.

Слухи о новом GPT ходили весь прошлый год, и судя по ним, четвертая модель должна была стать огромным шагом вперед по сравнению с предшествующими. Однако, похоже, улучшения оказались не такими впечатляющими. Об этом, в частности, уже предупреждал Альтман в одном из прошлых интервью. «Люди напрашиваются на то, чтобы разочароваться, — заявил он тогда. — У нас нет настоящего сильного ИИ, а именно его от нас и ждут».

В блоге компании сказано, что отличия между предыдущей моделью, GPT-3.5, и GPT-4 в повседневном общении незначительны. Сэм Альтман, глава OpenAI, твитнул, что GPT-4 «все еще обладает недостатками, все еще ограничен», и что он «кажется более впечатляющим при первом использовании, чем после после того, как проведешь с ним какое-то время».

Усовершенствования четвертого поколения заметны в производительности системы, это демонстрируют эталонные тесты: экзамены Uniform Bar Exam, LSAT, SAT Math, SAT Evidence-Based Reading & Writing и другие. Модель набрала в этих экзаменах 88% и более.

Вдобавок, GPT-4 стала многомодальной, то есть принимает в качестве запроса информацию не только в виде текста. Возможность обрабатывать изображения позволяет модели интерпретировать более сложные входящие данные. Хотя дополнительных режимов могло быть и больше.

В недавней серии твитов Альтман попросил умерить пыл в отношении новых инструментов искусственного интеллекта. Несмотря на их преимущества и потенциал, обществу, по его словам, нужно время, чтобы адаптироваться к столь серьезному сдвигу. И призвал к обязательному регулированию этой технологии, причем чем быстрее, тем лучше.