Ученые проверили способность GPT-3 решать ряд задач, вдохновленных тестом под названием «Прогрессивные матрицы Равена», в котором испытуемому предлагается предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, изображения преобразовали в текстовый формат, который мог обрабатывать GPT-3. Такой подход также гарантировал, что ИИ никогда раньше не сталкивался с такими вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи. GPT-3 не только работал так же хорошо, как люди, но и совершал аналогичные ошибки.
GPT-3 правильно решил 80% задач, что намного выше среднего балла испытуемых, составляющего чуть менее 60%, и находится в диапазоне самых высоких результатов человека.
GPT-3 также заставили ответить на аналоги вопросов SAT — стандартизованного теста для приёма в высшие учебные заведения в США. Задачи, по словам ученых, никогда не публиковались в интернете, а это означает, что они вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковые отношения. Например, есть такая задача: «„Любовь“ — „ненависть“, а „богатый“ —?». Решением будет слово «бедный». Ученые сравнили баллы GPT-3 с опубликованными результатами SAT абитуриентов колледжа и обнаружили, что результаты ИИ превышают средний балл людей.
Затем исследователи попросили GPT-3 и студентов-добровольцев решить аналогии, основанные на коротких рассказах. Они предоставили им один отрывок и запросили определить другой рассказ, который передает аналогичное значение. В результате технология справилась с этими задачами хуже, чем студенты. Однако GPT-4, последняя версия языковой модели от OpenAI, показала лучшие результаты по сравнению с GPT-3.
Исследователи разработали собственную компьютерную модель, основанную на человеческом познании, и сравнила ее возможности с искусственным интеллектом. На данный момент GPT-3 не способен решать задачи, требующие понимания физического пространства, которые может решить любой ребенок. Например, если предоставить описание набора инструментов, таких как картонная трубка, ножницы и лента, и попросить предложить способы переноса подушечек жевательной резинки из одной миски в другую, GPT-3 предложит странные решения.
Ученые надеются выяснить, действительно ли модели изучения языка начинают «думать» как люди или делают что-то совершенно иное, просто имитирующее человеческое мышление.
Люди не учились, поглощая весь интернет, так что метод обучения у GPT-3 принципиально другой. Это вызывает вопросы о природе и границах искусственного интеллекта и его способности эмулировать мышление человека. Ученым необходимо определить основные когнитивные процессы, которые используют модели искусственного интеллекта. Это требует доступа к программному обеспечению и данным, используемым для обучения, а также проведения тестов, на которых модель еще не была испытана.