Hitech logo

Тренды

ChatGPT сдал экзамен по радиологии, правильно ответив на 81% вопросов

TODO:
Екатерина Шемякинская22 мая 2023 г., 12:02

Последняя версия ChatGPT прошла экзамен радиологической комиссии, ответив правильно на 81% вопросов и продемонстрировав более сложное мышление, чем GPT-3.5. Но чат-бот ошибся в вопросах, на которые ранее отвечал правильно, а неверные ответы с полной уверенностью выдавал за верные. Это может вводить в заблуждение, так что полностью полагаться на ChatGPT все еще нельзя.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Чтобы оценить эффективность ChatGPT в ответах на экзаменационные вопросы совета рентгенологов и изучить сильные и слабые стороны, ученые сначала протестировали ChatGPT на основе GPT-3.5 — наиболее часто используемой версии. Исследователи использовали 150 вопросов с несколькими вариантами ответов, разработанных в соответствии со стилем, содержанием и сложностью экзаменов Канадского Королевского колледжа и Американского совета по радиологии.

Вопросы не включали изображения и были сгруппированы по типам, чтобы получить представление о производительности: мышление более низкого порядка (запоминание, базовое понимание) и более высокого порядка (применение, анализ, синтез). Вопросы мышления высокого порядка были дополнительно подклассифицированы по типу (описание результатов визуализации, клиническое ведение, расчет и классификация, ассоциации с заболеванием). Производительность ChatGPT оценивалась в целом, а также по типу вопроса и теме. Также оценивалась уверенность в ответах.

Исследователи обнаружили, что ChatGPT на основе GPT-3.5 правильно ответил на 69% вопросов (104 из 150), что близко к проходному баллу в 70%, используемому Королевским колледжем в Канаде. Модель относительно хорошо показала себя в вопросах, требующих мышления более низкого порядка (84%, 51 из 61), но испытывала затруднения с вопросами, требующими мышления более высокого порядка (60%, 53 из 89). Чат-боту было тяжело справиться с описанием результатов визуализации (61%, 28 из 46), расчетом и классификацией (25%, 2 из 8) и применением концепций (30%, 3 из 10). Такие результаты в сложных вопросах неудивительны, учитывая отсутствие предварительной подготовки по радиологии.

В последующем исследовании новая версия, GPT-4, правильно ответила на 81% (121 из 150) тех же вопросов, превзойдя GPT-3.5 и превысив проходной порог в 70%. GPT-4 показал себя намного лучше, чем GPT-3.5, в вопросах мышления более высокого порядка (81%). Чат-бот справился с описанием результатов визуализации (85%) и применением понятий (90%).

При этом GPT-4 не показал улучшения в вопросах мышления более низкого порядка (80% против 84%) и неправильно ответил на 12 вопросов, на которые GPT-3.5 ответил правильно, что вызывает сомнения в его надежности для сбора информации. Опасная тенденция ChatGPT давать неточные ответы, «галлюцинации», менее распространена в GPT-4, но все еще ограничивает его использование, например, в медицинском образовании.

Оба исследования показали, что ChatGPT всегда отвечает уверенно, даже если ответы неправильные. Это особенно опасно, если полагаться исключительно на информацию ChatGPT. Новички могут не распознать неправильные ответы, написанные уверенным языком.