Hitech logo

Кейсы

ChatGPT-4 раскритиковали за неточный анализ медицинских записей

TODO:
Екатерина Смирнова20 августа, 13:11

В будущем большие языковые модели (БЯМ) смогли бы автоматически читать клинические записи в медицинских карточках и точно извлекать необходимую информацию для лечения пациентов. Однако новое исследование показало, что большие языковые модели, такие как ChatGPT-4, пока не могут надежно обрабатывать данные из медицинских записей. В исследовании, охватившем 96 тысяч клинических записей пациентов, пострадавших в авариях на электросамокатах и другом транспорте, ChatGPT-4 менее точно определял наличие шлема по сравнению с традиционным текстовым поиском. У модели также были трудности с интерпретацией отрицательных формулировок и воспроизведением собственных результатов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Электронные медицинские карты содержат большие объемы важной медицинской информации в виде текстовых клинических записей, представляющих собой неструктурированные данные. Эффективные методы чтения и извлечения информации из этих записей были бы крайне полезными для исследований. Сейчас такие данные извлекаются либо с помощью простых методов текстового поиска по ключевым словам, либо с использованием более сложных подходов на основе искусственного интеллекта, таких как обработка естественного языка. Предполагалось, что новые большие языковые модели, подобные ChatGPT-4, смогут извлекать информацию быстрее и надежнее.

Ученые Колумбийской школы общественного здравоохранения имени Мейлмана проанализировали 96 тысяч медицинских записей из американских больниц за период с 2019 по 2022 год. Исследование охватило 54 569 обращений в отделения неотложной помощи пациентов, получивших травмы в результате аварий на электровелосипедах, велосипедах, гироскутерах и электрических самокатах. Ученые сравнили результаты анализа этих записей, проведенного с помощью языковой модели ChatGPT-4, с традиционным методом текстового поиска. Для более тщательной проверки они также вручную проанализировали 400 записей, сравнивая их с результатами, полученными ChatGPT-4.

Исследование посвящено изучению травматизма среди пользователей средств индивидуальной мобильности. Авторы отмечают, что использование шлема играет решающую роль в снижении тяжести травм. Однако информация об использовании шлема часто «закопана» в подробных медицинских записях врачей или сотрудников скорой помощи. Это создает трудности для исследователей, которым необходимо достоверно и эффективно извлекать эти данные.

В исследовании ChatGPT показал ограниченную точность в определении наличия шлема на основе анализа клинических записей. По сравнению с традиционным текстовым поиском, результаты БЯМ были менее точными. Модель успешно справлялась с задачей только при использовании тех же запросов, что и в текстовом поиске, но демонстрировала нестабильность в воспроизведении своих результатов. Особые трудности вызвали отрицательные формулировки, такие как «без шлема», которые часто интерпретировались неверно. Модель указывала обратное — что человек был в шлеме.

ChatGPT не смог воспроизвести результаты из дня в день, даже при использовании детальных запросов. Несмотря на потенциал больших языковых моделей в извлечении данных из медицинских текстов, проблемы надежности и галлюцинаций ограничивают их применение.