Искусственный интеллект DALL-E 2 прославился тем, что может создавать реалистичные изображения из текстового описания, хотя как именно он это делает, доподлинно неизвестно. Пару месяцев назад разработчики из некоммерческой организации OpenAI сообщили о новом достижении нейросети: якобы она изобрела собственный секретный язык, чтобы разговаривать об изображаемых объектах. Правда, проверить это заявление непросто, поскольку лишь единицы исследователей имеют доступ к DALL-E 2.
Психологи из Гарвардского университета решили подвергнуть нейросеть испытанию и выяснить, насколько правдивы утверждения о высоком творческом и когнитивном потенциале DALL-E 2.
Свой эксперимент они построили на способности распознавать отношения между объектами.
«Отношения — это фундамент человеческого восприятия. Классические и современные исследования указывают на то, что большинство отношений формируется в раннем возрасте и начинает быстро осознаваться человеком. Машинные модели, стремящиеся к человеческому уровню восприятия, должны отражать способность распознавать и генеративно рассуждать об отношениях», — говорится в статье, опубликованной исследователями на сайте arXiv.org.
Авторы отобрали 15 базовых отношений, которые были выбраны на основании изучения психологической или лингвистической литературы. В набор вошли пространственные отношения (Х находится на Y, X рядом с Y) и более абстрактные (Х помогает Y, Х тянет Y), а также 6 одушевленных и 6 неодушевленных объектов (ящик, цилиндр, нож, мужчина, женщина, игуана…). При этом фразы, содержащие эти отношения, были намеренно простыми (ящик на ноже, например). Эта простота позволяла охватить широкий спектр отношений и делала потенциальные ошибки модели более явными.
Затем фразы были переданы DALL-E 2 для создания соответствующих иллюстраций, которые, в свою очередь, участники эксперимента изучили на предмет соответствия заданным фразам. Всего было набрано 180 добровольцев в среднем 34 лет от роду.
Результаты показали низкий уровень соответствия иллюстраций, подобранных нейросетью, заданным фразам. Жюри удовлетворили всего 22,2% изображений. С заданиями на пространственные отношения DALL-E 2 справился хуже, чем с абстрактными (16,9% против 28,4%).
«DALL-E 2 и два составляющих компонента (модели латентной диффузии и CLIP) представляют значительный прогресс в машинном обучении, и такие модели могут стимулировать развитие визуального искусства. Однако наш эксперимент и анализ показывают, что DALL-E 2 страдает от существенного недостатка здравого смысла в виде понимания отношений», — делают вывод исследователи.
Другими словами, ИИ пока не в состоянии понять законы отношений между объектами, то, что обычный ребенок понимает в первые годы жизни. Несмотря на очевидный прогресс, который совершило машинное обучение в лице DALL-E 2, говорить о скором достижении уровня сильного искусственного интеллекта пока не приходится. Алгоритм вообще не понимает, что делает, и нет никаких признаков того, что такое понимание в принципе может быть им достигнуто.