Hitech logo

Медицина будущего

Чатбот превзошел врачей в рассуждениях на тему медицины

TODO:
Дарина Житова2 апреля, 12:04

Большая языковая модель GPT-4 превзошла ординаторов и лечащих врачей в двух медицинских центрах. Она лучше справилась с анализом данных и ставила правильные диагнозы. Способность к рассуждению у БЯМ оказалась выше, даже с поправкой на стандарты для оценки врачей. Однако ИИ часто ошибался, поэтому в будущем он станет надёжным помощником для врачей-диагностов, а не заменит их.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Ученые из Медицинского центра Бет Исраэль Диаконесса (BIDMC) сравнили способности к рассуждению у БЯМ с непосредственно человеческими. Исследователи использовали стандарты, разработанные для оценки врачей. Результаты опубликовали в JAMA Internal Medicine. Ученые хотели проследить, как БЯМ рассуждает на всех этапах постановки диагноза и как хорошо она делает выводы из предоставленных данных. Оказалось, что справляются она с этим не хуже, а то и лучше людей.

Доктор Адам Родман и его коллеги использовали проверенный инструмент, разработанный для оценки клинических рассуждений врачей, который называется r-IDEA. Исследователи набрали 21 лечащего врача и 18 ординаторов, каждый из которых работал над одним из 20 выбранных клинических случаев, состоящих из 4 последовательных стадий диагностического рассуждения. Авторы поручили врачам выписать и обосновать свои предварительные диагнозы на каждом этапе. GPT-4 получил запрос с идентичными инструкциями и обработал так все 20 клинических случаев. Их ответы затем оценивались по клиническому мышлению (оценка r-IDEA) и некоторым другим показателям рассуждения.

«Первый этап — это сортировка данных, когда пациент рассказывает вам, что его беспокоит, и вы собираете показатели жизненно важных функций», — сказала ведущий автор Стефани Кабрал, доктор медицинских наук. — «Второй этап — это проверка системы, когда вы получаете дополнительную информацию от пациента. Третий этап — физический осмотр, а четвертый — диагностическое тестирование и визуализация».

Чат-бот получил самые высокие оценки r-IDEA: средний балл 10 из 10 для магистров, 9 для лечащих врачей и 8 для ординаторов. Когда дело касалось точности диагностики, а также правильных клинических рассуждений, бот был на одном уровне с людьми или немного превосходил их. Но бот также ошибался и иногда шел по неправильной цепочке рассуждений. Делал он это чаще, чем ординаторы.

ИИ, скорее всего, будет наиболее полезен в качестве инструмента, который дополняет, а не заменяет процесс человеческого мышления. Необходимы дальнейшие исследования, чтобы определить, как БЯМ лучше всего интегрировать в клиническую практику, но даже сейчас они могут быть полезны в качестве контрольной точки. Авторы надеются, что ИИ улучшит опыт взаимодействия между врачами и пациентами, и поможет им лучше понимать друг друга.