Электронные медицинские карты содержат большие объемы важной медицинской информации в виде текстовых клинических записей, представляющих собой неструктурированные данные. Эффективные методы чтения и извлечения информации из этих записей были бы крайне полезными для исследований. Сейчас такие данные извлекаются либо с помощью простых методов текстового поиска по ключевым словам, либо с использованием более сложных подходов на основе искусственного интеллекта, таких как обработка естественного языка. Предполагалось, что новые большие языковые модели, подобные ChatGPT-4, смогут извлекать информацию быстрее и надежнее.
Ученые Колумбийской школы общественного здравоохранения имени Мейлмана проанализировали 96 тысяч медицинских записей из американских больниц за период с 2019 по 2022 год. Исследование охватило 54 569 обращений в отделения неотложной помощи пациентов, получивших травмы в результате аварий на электровелосипедах, велосипедах, гироскутерах и электрических самокатах. Ученые сравнили результаты анализа этих записей, проведенного с помощью языковой модели ChatGPT-4, с традиционным методом текстового поиска. Для более тщательной проверки они также вручную проанализировали 400 записей, сравнивая их с результатами, полученными ChatGPT-4.
Исследование посвящено изучению травматизма среди пользователей средств индивидуальной мобильности. Авторы отмечают, что использование шлема играет решающую роль в снижении тяжести травм. Однако информация об использовании шлема часто «закопана» в подробных медицинских записях врачей или сотрудников скорой помощи. Это создает трудности для исследователей, которым необходимо достоверно и эффективно извлекать эти данные.
В исследовании ChatGPT показал ограниченную точность в определении наличия шлема на основе анализа клинических записей. По сравнению с традиционным текстовым поиском, результаты БЯМ были менее точными. Модель успешно справлялась с задачей только при использовании тех же запросов, что и в текстовом поиске, но демонстрировала нестабильность в воспроизведении своих результатов. Особые трудности вызвали отрицательные формулировки, такие как «без шлема», которые часто интерпретировались неверно. Модель указывала обратное — что человек был в шлеме.
ChatGPT не смог воспроизвести результаты из дня в день, даже при использовании детальных запросов. Несмотря на потенциал больших языковых моделей в извлечении данных из медицинских текстов, проблемы надежности и галлюцинаций ограничивают их применение.