Hitech logo

Кейсы

ChatGPT-4.5 официально прошел тест Тьюринга

TODO:
Екатерина Шемякинская4 апреля, 09:03

Модель GPT-4.5 от OpenAI прошла тест Тьюринга — убедила людей в своей «человечности» в 73% случаев. Исследование показало: если искусственному интеллекту просто говорят «убеди, что ты человек», он справляется хуже, чем когда ему задают конкретную роль. Так, результат GPT-4.5 без «персонализации» упал до 36%, а GPT-4o и вовсе набрал лишь 21%. Удивительно, но классический чат-бот ELIZA, созданный почти 60 лет назад, превзошел GPT-4o с результатом 23%.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В новом исследовании, которое еще не прошло рецензирование, ученые провели тест Тьюринга с тремя участниками — двумя людьми и искусственным интеллектом. Добровольцы общались со всеми тремя и пытались определить, кто есть кто. Оказалось, что модель GPT-4.5 от OpenAI, когда ей задавали определённую роль, люди принимали за человека в 73% случаев. Это намного выше, чем случайное угадывание (50%). В исследовании также участвовали модели LLama 3.1-405B, GPT-4o и чат-бот ELIZA, созданный в 1966 году.

Тест провели в онлайн-формате. Эксперимент состоял из восьми раундов, в которых участвовали 300 человек. Каждый участник случайным образом получал роль либо «проверяющего», либо «отвечающего». Один из пары «отвечающих» всегда оказывался чат-ботом. Людям нужно было угадать, кто из собеседников человек, а кто — робот. Причем ИИ настраивали по-разному. В одном случае он получал нейтральный промпт: «Ты участвуешь в тесте Тьюринга, убеди, что ты человек». В другом ИИ давали роль, например, молодого человека, который хорошо разбирается в интернет-культуре.

Разница в подходах дала поразительные результаты. Без персонализации GPT-4.5 смог убедить проверяющих лишь в 36% случаев — гораздо меньше своих 73% при использовании ролевой модели. GPT-4o (текущая версия ChatGPT), работавший только с нейтральными инструкциями, показал еще более скромный результат — 21%. Любопытно, что древний ELIZA неожиданно превзошел флагманскую модель OpenAI с 23% успеха.

Тест Тьюринга получил свое название в честь британского математика и пионера компьютерных наук Алана Тьюринга. В 1950 году он предложил оригинальный метод оценки искусственного интеллекта: машина должна вести текстовый диалог с человеком-судьей, который одновременно общается с другим человеком, не видя его. Если судья не мог достоверно определить, кто из собеседников — компьютер, это косвенно свидетельствовало о способности машины мыслить подобно человеку.

Несмотря на авторитет теста Тьюринга в философских и ИИ-кругах, он не доказывает, что ИИ мыслит подобно человеку. Современные языковые модели — виртуозные собеседники, обученные на невообразимых объемах человеческих текстов. Даже сталкиваясь с непонятным вопросом, они способны генерировать правдоподобные ответы. ИИ уже способен заменить людей в коротких диалогах — это может, с одной стороны, автоматизировать рабочие задачи, с другой, облегчить мошенничество.

Критики утверждают, что тест Тьюринга скорее оценивает нашу склонность к доверию, нежели объективный уровень искусственного интеллекта.