Команда учёных из Редингского университета в Англии (University of Reading) под руководством Питера Скарфа провела масштабный эксперимент, чтобы проверить, насколько эффективно современные системы искусственного интеллекта могут справляться с университетскими экзаменами. Исследователи создали более 30 фиктивных учётных записей студентов-психологов и использовали их для сдачи экзаменов, используя ответы, сгенерированные ChatGPT, сообщает издание Ars Technica. Эксперимент охватил пять модулей бакалавриата по психологии, включая задания для всех трёх лет обучения. Задания представляли собой либо ответы на короткие вопросы в 200 слов, либо более сложные эссе длиной примерно в 1500 слов. При этом экзаменаторы не знали об эксперименте.
Более короткие ответы готовились просто путем копирования и вставки экзаменационных вопросов в ChatGPT-4 вместе с подсказкой не превышать 160 слов. Эссе запрашивались таким же образом, но требуемое количество слов было увеличено до 2000. Установив ограничения таким образом, команда Скарфа смогла заставить ChatGPT-4 создавать контент, достаточно близкий к требуемой длине. «Идея состояла в том, чтобы отправлять эти ответы вообще без какого-либо редактирования, за исключением эссе, где мы применили минимальное форматирование», — пояснил Скарф.
Результаты оказались ошеломляющими — 94% работ, созданных ИИ, прошли проверки на роботизированность со стороны специальных алгоритмов, которые должны выявлять подмену ответов настоящих студентов. Более того, почти 84% этих работ получили более высокие оценки, чем работы студентов, в среднем на полбалла выше. «Экзаменаторы были весьма удивлены результатами», — отметил Скарф. Причём интересно, что некоторые работы ИИ были обнаружены не из-за их роботизированности, а из-за слишком высокого качества — оно было значительно выше, чем у средних работ студентов.
Однако не все результаты были в пользу ИИ. На последнем курсе, где требовалось более глубокое понимание и сложные аналитические навыки, студенты-люди показали лучшие результаты, чем ChatGPT.
Эксперимент также выявил ограничения существующих систем обнаружения контента, созданного ИИ. По словам Скарфа, такие инструменты, как GPTZero от Open AI и система Turnitin, показывают хорошие результаты в лабораторных условиях, но их эффективность значительно снижается в реальной жизненной ситуации. Так, Open AI утверждает, что GPTZero может помечать сгенерированный ИИ текст как «вероятный» ИИ в 26% случаев, с довольно тревожным показателем ложных срабатываний в 9 процентов. С другой стороны, система Turnitin рекламировалась как обнаруживающая 97% написанного ChatGPT и GPT-3 в лаборатории с всего одним ложным срабатыванием на сотню попыток. Но, по словам команды Скарфа, выпущенная бета-версия этой системы работала значительно хуже.
Скарф подчеркнул, что ввиду постоянного совершенствования ИИ и отсутствия надёжных способов обнаружения его использования, университетам придётся адаптироваться и интегрировать ИИ в образовательный процесс. «Роль современного университета заключается в подготовке студентов к профессиональной карьере, и реальность такова, что после окончания учёбы они, несомненно, будут использовать различные инструменты искусственного интеллекта», — считает ученый.
Эксперимент поднимает проблему пересмотра существующих методов обучения и экзаменации — они перестали соответствовать реалиям жизни.