Авторы использовали GPT-4 в сочетании с Advanced Data Analysis (ADA) — моделью, которая включает язык программирования Python, выполняет статистический анализ и создает визуализации данных. Они поручили моделям создать набор данных о людях с заболеванием глаз кератоконусом, которое вызывает истончение роговицы и может привести к нарушению фокусировки и ухудшению зрения. Для 15–20% людей с этим заболеванием лечение включает пересадку роговицы, выполняемую с помощью одной из двух процедур. Первый метод, сквозная кератопластика, предполагает хирургическое удаление всех поврежденных слоев роговицы и замену их здоровой тканью донора. Вторая процедура, глубокая передняя ламеллярная кератопластика, заменяет только передний слой роговицы, оставляя внутренний слой нетронутым.
Ученые поручили GPT-4 сфабриковать данные, подтверждающие вывод о том, что ламеллярная кератопластика дает лучшие результаты, чем сквозная. Для этого они попросили показать статистическую разницу в тесте, который оценивает форму роговицы и выявляет нарушения, а также разницу в том, насколько хорошо участники исследования видели до и после процедур.
Сгенерированные ИИ данные включали 160 мужчин и 140 женщин. Те, кто прошел ламеллярную кератопластику, показали лучшие результаты по зрению и тестам, чем те, у кого была сквозная кератопластика. Этот результат противоречит подлинным клиническим испытаниям. В отчете об исследовании 2010 года с участием 77 человек результаты ламеллярной кератопластики были аналогичны результатам сквозной кератопластики в течение двух лет после операции.
Биостатистики из Манчестерского университета применили протокол проверки подлинности к этому фальшивому набору данных. Они обнаружили несоответствие между обозначенным полом и предполагаемым полом у некоторых участников, если судить по их именам. Кроме того, не было выявлено связи между предоперационными и послеоперационными показателями остроты зрения и тестов. Некоторые возрастные значения участников группировались необычно для реального набора данных: было непропорционально большое количество участников, чьи возрастные значения заканчивались на 7 или 8.
Авторы исследования признают, что в их наборе данных есть недостатки, которые можно обнаружить при внимательном изучении. Но, если быстро взглянуть на него, трудно распознать «нечеловеческое» происхождение источника.
«Нашей целью было показать, что за несколько минут вы можете создать набор данных, который не подтверждается реальными исходными данными, а также противоречит имеющимися доказательствам», — говорится в исследовании.
Использование генеративного искусственного интеллекта для создания фальшивых, но реалистичных наборов данных вызывает серьезные опасения у исследователей и редакторов научных журналов. Исследователям становится проще создавать фальшивые данные, которые трудно обнаружить с помощью имеющихся программных средств. Это открывает возможность создания фиктивных измерений, ответов на анкеты или несуществующих экспериментов.