Распознавание лиц — одно из самых бурно развивающихся приложений искусственного интеллекта. С учетом того, что один из главных потребителей — госструктуры, уже в ближайшее время решения алгоритмов будут влиять на жизни миллионов людей.
Экспертов-скептиков в этой связи все больше заботит предвзятость таких алгоритмов. И IBM намерена бороться за объективность с помощью огромного количества данных. Базы данных для обучения ИИ — главный источник выводов, которые затем делают алгоритмы. И если они далеки от действительности, решения ИИ тоже искажаются.
Как отмечает CNBC, с лицами это происходит регулярно. В прошлом году алгоритм самой IBM надежно распознавал белых мужчин, а в случае с женщинами со смуглой кожей вероятность ошибки достигала 35%.
Тогда же IT-гигант объявил о намерении исправить ситуацию, опубликовав в открытом доступе гигантскую и репрезентативную базу фотопортретов, размеченную для обучения алгоритмов. Базой послужила фотоколлекция Flikr из 100 млн изображений.
Разработчики IBM отобрали из них миллион лиц, а также создали отдельный тестовый датасет из 36 000 изображений, равномерно распределенных по всем этносам и возрастам.
Миллиона фото едва достаточно, чтобы отразить разнообразие мира, уверен главный исследователь IBM Джон Смит: «Ради прогресса технологии она должна быть основа на разнообразных обучающих данных… У большинства присутствующих на рынке датасетов недостаточное покрытие и баланс. Данные не отражают лица, которые мы видим вокруг».
Отметим, что собственные проблемы с поиском новых лиц IBM решала иначе: свою систему гигант тайно обучал на данных с полицейских камер наблюдения.