Hitech logo

Обучение машин

IBM открыла доступ к крупнейшей базе лиц для обучения ИИ

TODO:
Александр Носков30 января 2019 г., 13:38

В базе — миллион фото с аннотациями. Это в разы больше, чем предлагают конкуренты. У IBM глобальная цель: избавить ИИ от предвзятости и научить алгоритмы с равной вероятностью распознавать и европеоидов, и меньшинства.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Распознавание лиц — одно из самых бурно развивающихся приложений искусственного интеллекта. С учетом того, что один из главных потребителей — госструктуры, уже в ближайшее время решения алгоритмов будут влиять на жизни миллионов людей.

Экспертов-скептиков в этой связи все больше заботит предвзятость таких алгоритмов. И IBM намерена бороться за объективность с помощью огромного количества данных. Базы данных для обучения ИИ — главный источник выводов, которые затем делают алгоритмы. И если они далеки от действительности, решения ИИ тоже искажаются.

Как отмечает CNBC, с лицами это происходит регулярно. В прошлом году алгоритм самой IBM надежно распознавал белых мужчин, а в случае с женщинами со смуглой кожей вероятность ошибки достигала 35%.

Тогда же IT-гигант объявил о намерении исправить ситуацию, опубликовав в открытом доступе гигантскую и репрезентативную базу фотопортретов, размеченную для обучения алгоритмов. Базой послужила фотоколлекция Flikr из 100 млн изображений.

Разработчики IBM отобрали из них миллион лиц, а также создали отдельный тестовый датасет из 36 000 изображений, равномерно распределенных по всем этносам и возрастам.

Миллиона фото едва достаточно, чтобы отразить разнообразие мира, уверен главный исследователь IBM Джон Смит: «Ради прогресса технологии она должна быть основа на разнообразных обучающих данных… У большинства присутствующих на рынке датасетов недостаточное покрытие и баланс. Данные не отражают лица, которые мы видим вокруг».

Отметим, что собственные проблемы с поиском новых лиц IBM решала иначе: свою систему гигант тайно обучал на данных с полицейских камер наблюдения.