Модели Med-Gemini в настоящее время находятся на стадии исследования, но, по данным разработчиков, они превзошли индустриальные стандарты в 14 специализированных тестах производительности. В испытании MedQA (USMLE) модели достигли точности 91,1%, используя стратегию поиска на основе неопределённости, что на 4,5% выше, чем у предыдущей модели Med-PaLM 2. Кроме того, врачи в половине случаев оценили рекомендации Med-Gemini-M 1.0 как хорошие или даже превосходящие по качеству ответы экспертов.
Google заявляет, что ИИ линейки Med-Gemini предоставляют более точные, детальные и надёжные результаты по сложным задачам клинического обоснования. Это семейство состоит из мультимодальных моделей, каждая из которых обладает своей специализацией. Они показывают лучшие результаты в обобщении медицинских данных и составлении рекомендаций, превосходя GPT-4 в 7 мультимодальных тестах производительности, включая тестирование на основе изображений New England Journal of Medicine (NEJM).
Для проверки способности моделей Med-Gemini анализировать длинный контекст медицинских данных исследователи использовали базу данных Medical Information Mart for Intensive Care (MIMIC-III). Модели успешно идентифицировали редкие заболевания и симптомы в большом массиве данных, что помогло врачам быстро получить релевантную информацию из электронных медицинских карт. Это снижает когнитивную нагрузку на диагностов и упрощает работу с большими данными.
Модели Med-Gemini демонстрируют высокие результаты не только в анализе данных, но и в клинических рассуждениях и диагностике, обрабатывая текстовую и визуальную информацию. Они могут помогать врачам в составлении рекомендаций, а также способны общаться с пациентами, задавая уточняющие вопросы и формулируя диагноз на основе изображений и истории болезни. Например, модели точно определяли причины редких кожных высыпаний, а также формулировали диагнозы при анализе рентгеновских снимков.
Google признает, что модели всё ещё нуждаются в дальнейшей доработке и специализации, особенно в части ограничения источников данных авторитетными медицинскими ресурсами. Тем не менее, исследователи видят в них значительный потенциал.