Базы данных для обучения ИИ — главный источник выводов, которые затем делают алгоритмы. Если эти наборы для обучения неадекватны реальности, то и выводы будут недостоверными. Инструменты для выявления «коррумпированных» связей пока в зачаточном состоянии. Поэтому главным средством создания объективного ИИ служат исчерпывающие и сбалансированные наборы данных, подчеркивает IBM.
Осенью компания собирается предоставить разработчикам доступ к самому большому каталогу лиц — в нем более миллиона фото. Каждое изображение сопровождает аннотация и отметка о том, где была снята фотография. Эта база примерно в пять раз крупнее, чем те, на которых обучают алгоритмы сейчас.
Отдельно будет представлена база с 36 000 изображений лиц, среди которых равномерно представлены все этносы и возраста. С ее помощью можно будет проверить выводы обученной нейросети.
Поощряя, таким образом, исследования в этой сфере, IBM вместе с тем подчеркивает, что ИИ должен дополнять, а не заменять здравый смысл, который проявляют люди: «Мы верим, что ни одна технология — неважно, насколько она аккуратна — не сможет или не должна заменять суждения человека, его интуицию и опыт».
В пресс-релизе акцентируется внимание на то, что обучать надо не только алгоритмы, но и их разработчиков, чтобы они учились понимать, когда ИИ демонстрирует предвзятость, и знали, какие меры необходимо предпринять в этом случае.
Недавно еще один ИТ-гигант — Microsoft — объявил о разработке программы-ревизора, которая укажет на предвзятость алгоритмов. Несмотря на такое солидное представительство, ряд специалистов не верит в распространение объективного ИИ. Многие считают распознавание лиц лишь первым шагом к тотальной дискриминации.