С тех пор как некоммерческая организация OpenAI представила свою новую систему генерации текста GPT-3 в мае, появилось множество статей, описывающих опыт использования этой нейросети и ее возможностей. Например, в конце прошлой недели одна из таких статей расхваливала алгоритм за совместную работу с писателем — она сгенерировала вполне живые диалоги для описанных им героев. Сами разработчики сдержанно комментируют достоинства своей нейросети в технической документации, и многим она кажется значительным достижением если не прорывом.
Действительно, пишет MIT Technology Review, на первый взгляд кажется, что у GPT-3 впечатляющие способности генерировать текст не хуже человека. Алгоритм хорошо справляется с задачей построения придуманного контента, но точность — не его сильная сторона. Если копнуть глубже, можно обнаружить, что чего-то не хватает: хотя результат грамматически и даже стилистически верен, понимание контекста часто серьезно искажено. Другими словами, GPT-3 не знает, о чем пишет. А значит алгоритму нельзя доверять — в этом абсолютно уверен Эрнест Дэвис, профессор информатики из Университета Нью-Йорка.
Дэвис с группой коллег запросил разрешение от OpenAI на исследование алгоритма GPT-3 (компания дает доступ к алгоритму по запросам), но не получил его. Возможно потому, что ранее он исследовал предыдущую версию алгоритма — GPT-2 — и выпустил по итогам разгромный материал. Как бы там ни было, но Дэвис с коллегами каким-то образом получили доступ к новой версии алгоритма и смогли провести с ним свой эксперимент. Его результаты разочаровали ученых.
Они обнаружили, что GPT-3 присущи все те же проблемы, что были выявлены еще у версии GPT-2. Если повезет, система может выдать связный фрагмент текста, который может сойти за глубокое понимание мира, но на самом деле это не так. Алгоритм не понимает мира и никак не приблизился к этому.
Добавление в сто раз большего объема данных — это ключевое отличие новой версии алгоритма от предыдущей — помогло лишь отчасти. После того, как разработчики потратили на машинное обучение миллионы долларов, фундаментальные недостатки их разработки никуда не делись. Производительность GTPT-3 остается ненадежной, понимание причин — шатким, а бессвязность — постоянной. У нейросети остались все те же проблемы с логикой в текстах на биологические, физические и социальные темы.
Дэвис привел пример сгенеренного GPT-3 текста: «На вечеринке я налил себе стакан лимонада, но он оказался слишком кислым, так что я добавил немного сахара. Я не увидел подходящей ложки, поэтому размешал его сигаретой. Но это оказалось плохой идеей, потому что она упала на пол. И тогда он решил начать Ассоциацию кремации Северной Америки, которая стала крупнейшим поставщиком услуг с 145 филиалами». GPT-3 сначала неправильно представляет себе последствия размешивания лимонада сигаретой, а потом вообще сбивается на бессмыслицу.
Причина неудач в том, как именно работают такие системы. Они не учатся узнавать мир — они изучают текст и то, как люди используют слова. GPT-3 бездумно комбинирует слова и словосочетания, не пытаясь понять смысл, который лежит за вводной фразой, полученной от человека.
Недавно нейронная сеть GPT-3 сгенерировала стишок, высмеивающий бывшего члена совета директоров OpenAI Илона Маска. В прошлом он был членом совета директоров этой компании, но потом ушел оттуда и выступал с критикой новой политики руководства. Маск считает, что исследования Open AI приведут к появлению искусственного интеллекта, который уже через 5 лет незаметно начнет захватывать контроль над планетой. Но пока этот ИИ размешивает сахар сигаретой бояться его как минимум преждевременно.