В новом исследовании, которое еще не прошло рецензирование, ученые провели тест Тьюринга с тремя участниками — двумя людьми и искусственным интеллектом. Добровольцы общались со всеми тремя и пытались определить, кто есть кто. Оказалось, что модель GPT-4.5 от OpenAI, когда ей задавали определённую роль, люди принимали за человека в 73% случаев. Это намного выше, чем случайное угадывание (50%). В исследовании также участвовали модели LLama 3.1-405B, GPT-4o и чат-бот ELIZA, созданный в 1966 году.
Тест провели в онлайн-формате. Эксперимент состоял из восьми раундов, в которых участвовали 300 человек. Каждый участник случайным образом получал роль либо «проверяющего», либо «отвечающего». Один из пары «отвечающих» всегда оказывался чат-ботом. Людям нужно было угадать, кто из собеседников человек, а кто — робот. Причем ИИ настраивали по-разному. В одном случае он получал нейтральный промпт: «Ты участвуешь в тесте Тьюринга, убеди, что ты человек». В другом ИИ давали роль, например, молодого человека, который хорошо разбирается в интернет-культуре.
Разница в подходах дала поразительные результаты. Без персонализации GPT-4.5 смог убедить проверяющих лишь в 36% случаев — гораздо меньше своих 73% при использовании ролевой модели. GPT-4o (текущая версия ChatGPT), работавший только с нейтральными инструкциями, показал еще более скромный результат — 21%. Любопытно, что древний ELIZA неожиданно превзошел флагманскую модель OpenAI с 23% успеха.
Тест Тьюринга получил свое название в честь британского математика и пионера компьютерных наук Алана Тьюринга. В 1950 году он предложил оригинальный метод оценки искусственного интеллекта: машина должна вести текстовый диалог с человеком-судьей, который одновременно общается с другим человеком, не видя его. Если судья не мог достоверно определить, кто из собеседников — компьютер, это косвенно свидетельствовало о способности машины мыслить подобно человеку.
Несмотря на авторитет теста Тьюринга в философских и ИИ-кругах, он не доказывает, что ИИ мыслит подобно человеку. Современные языковые модели — виртуозные собеседники, обученные на невообразимых объемах человеческих текстов. Даже сталкиваясь с непонятным вопросом, они способны генерировать правдоподобные ответы. ИИ уже способен заменить людей в коротких диалогах — это может, с одной стороны, автоматизировать рабочие задачи, с другой, облегчить мошенничество.
Критики утверждают, что тест Тьюринга скорее оценивает нашу склонность к доверию, нежели объективный уровень искусственного интеллекта.