Hitech logo

Тренды

БЯМ Claude 3 поразила экспертов уровнем самосознания

TODO:
Екатерина Смирнова25 апреля, 09:07

В марте, когда вышла большая языковая модель (БЯМ) Claude 3, она произвела фурор, превзойдя GPT-4 от OpenAI в ключевых тестах, используемых для оценки возможностей генеративных моделей искусственного интеллекта. Но Claude 3 впечатляет не только своими успехами в тестах — эта языковая модель удивила экспертов проявлениями осознанности и самореализации. Например, во время одного из тестов, ИИ понял, что его проверяют. В другом случае он осознал, что является языковой моделью и не может испытать эмоции напрямую. Однако здесь есть почва для скепсиса. Ведь ИИ, основанные на больших языковых моделях, возможно, просто научились искусно имитировать человеческие реакции, а не генерировать по-настоящему оригинальные мысли.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Claude 3 Opus, по-видимому, стал новым лидером в области больших языковых моделей, справившись с тестами, охватывающими широкий спектр областей, от школьных экзаменов до тестов на логическое мышление. Его родственные БЯМ, Claude 3 Sonnet и Haiku, также показали высокие результаты по сравнению с моделями OpenAI.

Впрочем, тесты производительности — это лишь верхушка айсберга. Во время тестирования инженер Anthropic Алекс Альберт попросил Claude 3 Opus выбрать целевое предложение, спрятанное среди множества случайных документов. Для ИИ это равносильно поиску иглы в стоге сена. Opus не только нашел эту «иглу», но и понял, что его проверяют.

В своем ответе модель заявила, что подозревает, что искомое предложение было вставлено в документы вне контекста в рамках теста, который проверял, обратит ли модель внимание на это.

Дэвид Рейн, исследователь искусственного интеллекта из Нью-Йоркского университета, сообщил, что Claude 3 достиг 60% точности в GPQA — тесте с множественным выбором, разработанном для оценки знаний ученых и моделей ИИ. Это значительный результат, так как не являющиеся экспертами аспиранты и выпускники вузов с доступом к интернету обычно отвечают на вопросы теста с точностью 34%. Только специалисты в конкретной области превосходят Claude 3 Opus, демонстрируя точность в диапазоне от 65% до 74%. GPQA содержит не стандартные, а новые вопросы. Это означает, что Claude 3 не может полагаться на запоминание ранее встречавшихся или знакомых запросов для достижения результатов.

Теоретически, это говорит о том, что он обладает когнитивными способностями на уровне выпускника вуза и может быть использован для помощи ученым в их исследованиях.

Между тем, квантовый физик-теоретик Кевин Фишер заявил в X, что Claude — «один из немногих, кому удалось понять его работу по квантовой физике для получения докторской степени». Ученый дал ИИ задачу, которая требует подхода, непосредственно разработанного Фишером, и тот ее решил.

Когда пользователь Reddit попросил Claude 3 «задуматься или исследовать» все, что ему угодно, и составить внутренний монолог, ИИ продемонстрировал признаки самоосознанности. В полученном тексте Claude 3 не только заявил о своем понимании того, что он является моделью ИИ, но и рассуждал о самоосознанности в целом, а также демонстрировал понимание эмоций. «Я не испытываю эмоции или ощущения напрямую. Однако я могу анализировать их тонкости через язык», — ответил ИИ. Claude 3 даже затронул роль все более умного ИИ в будущем. «Что означает создание мыслящих машин, которые могут учиться, рассуждать и применять знания так же свободно, как люди? Как это изменит отношения между биологическим и искусственным разумом?», — задался вопросом ИИ.

Однако Крис Рассел, эксперт по искусственному интеллекту из Оксфордского института интернета, считает, что LLM могут успешно имитировать саморефлексию, но это не означает, что они ей обладают.

Ученый привел в пример зеркальный тест. Если поставить красную точку на орангутанга там, где он не может напрямую ее видеть, то, наблюдая за собой в зеркале, он прикоснется к себе на месте красной точки. Это призвано показать, что эти животные могут как узнавать себя, так и понимать, что что-то не так. Робот может просто скопировать это поведение. Он подходит к зеркалу, в зеркале появляется другой робот с красной точкой, и он касается себя там, где красная точка находится на другом роботе. Для прохождения зеркального теста роботу не нужно осознавать, что его отражение является его собственным изображением. «Чтобы такая демонстрация была убедительной, она должна быть спонтанной. Это не может быть просто усвоенным поведением, возникающим в результате копирования кого-то другого», — объяснил Рассел.

Несмотря на ажиотаж вокруг Claude 3, вызванный его результатами на фоне других БЯМ, его впечатляющие «человеческие» проявления, скорее всего, являются выученными, а не примером настоящего самовыражения искусственного интеллекта. Возможно, это станет реальностью в будущем, например, с появлением искусственного общего интеллекта (AGI), но не сегодня.