На прошлой неделе Хайтек+ писал о расследовании работы алгоритма PredPol, которое провели журналисты Motherboard. Уже тогда были высказаны опасения о том, что подход, который использовали разработчики, не гарантирует эффективного патрулирование районов, а алгоритмы, воспитанные на неминуемо искаженных данных, будут предвзятыми.
Дальнейшие исследования показали, что математическая теория, стоящая за прогнозами PredPol, некорректна, а алгоритм компании слишком примитивен и несет лишь вред.
Кристиан Лам, ведущий специалист по статистике в Human Rights Data Analysis Group (HRDAG), принимала участие в исследовании. Она говорит, что хотя алгоритм ProdPol основан на сложных математических формулах, его суть можно свести к расчету скользящего среднего — среднего значения, вычисляемого по нескольким последним полученным наборам данных.
По сути, система просто вычитывает, где обычно происходят аресты, и говорит полицейским отправляться патрулировать туда.
Разработчики всего лишь взяли статистическую модель, вычисляющую вероятность землетрясений, и применили ее к преступлениям. По их мысли, и те, и другие явления происходят чаще всего в одних и тех же местах. И они совсем не учли, что данные о природных катаклизмах и о правонарушениях собираются по-разному.
Ошибка выживших
Профессор Суреш Венкатасубраманиан из Университета штата Юта считает это провалом: «Ключевое отличие в том, что в модели землетрясения у вас повсюду есть сейсмографы. И если оно происходит, вы об этом узнаете». Другими словами, ученые получают данные почти обо всех землетрясениях, какие только случаются на планете. Но с преступлениями это далеко не так.
Жители одних районов обращаются в полицию чаще. Некоторые виды преступлений, напротив, склонны замалчивать. А отношение к мелким правонарушениям у правоохранителей различается не только в разных странах, но и в разных городах.
Когда такие данные загружают в алгоритм PredPol, создается подпитывающая сама себя петля или самоисполняющееся пророчество.
Полицейские приезжают в одни и те же районы, проводят много задержаний, данные о которых поступают в алгоритм, который заново отправляет их в те же криминогенные места.
Издание Motherboard обратилось за комментариями к представителям PredPol, но пока не получило ответа.
Команда британский и испанских ученых разработала программу, позволившую полиции вычислять ложные обращения. Для этого они использовали машинное обучение и инструменты текстового анализа.