Во время пандемии COVID-19 в некоторых странах было недостаточно наборов для тестирования на вирусную инфекцию. Команда из Индии использовала искусственный интеллект, чтобы анализировать рентгеновские изображения и точно определять инфицированных людей. Позже ученые-компьютерщики из Университета штата Канзас обучили алгоритм на тех же изображениях, но использовали только пустые фоновые участки, на которых вообще не было видно частей тела. ИИ все равно выявил случаи COVID-19 с гораздо большей вероятностью. Такие результаты были не только в этом исследовании, но и в других работах, где ИИ успешно классифицировал пустые или бессмысленные части изображений, например, распознавал лица без лиц или ячейки без ячеек.
В отдельном обзоре 2021 года было рассмотрено 62 исследования, в которых использовалось машинное обучение для диагностики COVID-19 с помощью рентгенографии грудной клетки или компьютерной томографии.
Ни одна из ИИ-моделей не оказалась клинически полезной из-за методологических недостатков или предвзятости в наборах данных изображений.
Как и любой новый мощный статистический метод, ИИ позволяет исследователям обмануть себя в поисках конкретного результата. Ученые могут «играть» с данными и параметрами до тех пор, пока результаты не будут соответствовать ожиданиям. Невероятная гибкость и настраиваемость ИИ, а также отсутствие строгости при разработке этих моделей предоставляют слишком большую свободу действий.
Еще одной проблемой машинного обучения является так называемая утечка данных. При обучении алгоритмы используют данные, чтобы научиться правильно решать задачи, например, классифицировать изображения. Затем их производительность проверяется на невидимых (тестовых) данных. Чтобы получить надежную оценку, важно разделить обучающий и тестовый наборы. Однако исследователи не всегда соблюдают это разделение и не понимают, как его обеспечить. В результате происходит утечка данных, когда информация из тестового набора попадает в обучающий, что искажает результаты.
Эта проблема вызвала сложности с воспроизводимостью исследований в 17 областях, и повлияла на сотни статей. Если применять это к медицине, то алгоритм машинного обучения может начать определять особенности конкретного пациента или медицинского инструмента, а не реальные признаки заболевания. Это может привести к неправильным диагнозам.
Набор тестовых данных может не отражать реальные условия. В таком случае модель искусственного интеллекта покажет надежные результаты на тестовых данных, но они будут бесполезны в реальности. В жизни больше вариаций, чем в контролируемой лабораторной среде, и модели ИИ часто не проверяются на устойчивость к таким вариациям до ввода в эксплуатацию. Например, исследователи из Google Health разработали модель ИИ для анализа изображений сетчатки с целью обнаружения признаков диабетической ретинопатии, приводящей к слепоте. Когда модель протестировали в клиниках в Таиланде, она отклоняла много изображений, которые были сделаны в неидеальных условиях, поскольку была обучена на высококачественных сканах. Это привело к необходимости дополнительных визитов пациентов для дальнейшего наблюдения, что создало лишнюю работу для медицинского персонала.
Если данные в наборе несбалансированные, то можно попытаться исправить это путем применения алгоритмов ребалансировки. Например, метод SMOTE создает синтетические данные для областей с недостаточной выборкой.
Однако использование SMOTE приводит к чрезмерно оптимистичным оценкам производительности, так как он заполняет набор синтетическими данными, основанными на несуществующих предположениях.
Ученые предложили решение проблемы с помощью списка стандартов для отчетности о научных работах, основанных на ИИ. В этом списке содержится 32 вопроса о таких факторах, как качество данных, детали моделирования и риски утечки данных. Они утверждают, что список «устанавливает междисциплинарные стандарты для отчетности в научных исследованиях, основанных на машинном обучении».
Чтобы повысить надежность исследований на основе ИИ, нужно проводить их междисциплинарными группами, считают некоторые ученые. Например, компьютерщики знают, как собирать и обрабатывать наборы данных, а биологи понимают экспериментальные сложности получения данных. Поэтому им стоит работать в связке. Некоторые представители научного сообщества считают, что через 10-20 лет сформируется более глубокое понимание того, что может предложить ИИ и как его использовать. По крайней мере, для генеративного ИИ воспроизводимость может улучшиться, поскольку используемые модели будут более согласованными.