Ученые из Медицинского центра Бет Исраэль Диаконесса (BIDMC) сравнили способности к рассуждению у БЯМ с непосредственно человеческими. Исследователи использовали стандарты, разработанные для оценки врачей. Результаты опубликовали в JAMA Internal Medicine. Ученые хотели проследить, как БЯМ рассуждает на всех этапах постановки диагноза и как хорошо она делает выводы из предоставленных данных. Оказалось, что справляются она с этим не хуже, а то и лучше людей.
Доктор Адам Родман и его коллеги использовали проверенный инструмент, разработанный для оценки клинических рассуждений врачей, который называется r-IDEA. Исследователи набрали 21 лечащего врача и 18 ординаторов, каждый из которых работал над одним из 20 выбранных клинических случаев, состоящих из 4 последовательных стадий диагностического рассуждения. Авторы поручили врачам выписать и обосновать свои предварительные диагнозы на каждом этапе. GPT-4 получил запрос с идентичными инструкциями и обработал так все 20 клинических случаев. Их ответы затем оценивались по клиническому мышлению (оценка r-IDEA) и некоторым другим показателям рассуждения.
«Первый этап — это сортировка данных, когда пациент рассказывает вам, что его беспокоит, и вы собираете показатели жизненно важных функций», — сказала ведущий автор Стефани Кабрал, доктор медицинских наук. — «Второй этап — это проверка системы, когда вы получаете дополнительную информацию от пациента. Третий этап — физический осмотр, а четвертый — диагностическое тестирование и визуализация».
Чат-бот получил самые высокие оценки r-IDEA: средний балл 10 из 10 для магистров, 9 для лечащих врачей и 8 для ординаторов. Когда дело касалось точности диагностики, а также правильных клинических рассуждений, бот был на одном уровне с людьми или немного превосходил их. Но бот также ошибался и иногда шел по неправильной цепочке рассуждений. Делал он это чаще, чем ординаторы.
ИИ, скорее всего, будет наиболее полезен в качестве инструмента, который дополняет, а не заменяет процесс человеческого мышления. Необходимы дальнейшие исследования, чтобы определить, как БЯМ лучше всего интегрировать в клиническую практику, но даже сейчас они могут быть полезны в качестве контрольной точки. Авторы надеются, что ИИ улучшит опыт взаимодействия между врачами и пациентами, и поможет им лучше понимать друг друга.