Программисты-любители создали необычный алгоритм анализа изображений с помощью нейросетей, который решает сразу две важнейших проблемы использования ИИ для распознавания. Заменив само изображение характеристикой «энтропии», они научились упрощать слишком детализированные снимки, а также генерировать достаточно большие сеты данных для обучения в случаях, когда их недостаточно. О работе Андреа и Стивена Франков рассказывает IEEE Spectrum.
Обычно достижения машинного обучения базируются на огромных массивах данных и мощностях для их анализа, которые пока недоступны в бытовых условиях. Но есть такие сферы, где данные одновременно и слишком сложны, и их недостаточно. Например, картины художников.
Новые полотна-сэмплы после смерти творца не появляются, а в то же время оцифрованные работы слишком велики для тренировки сверточной нейронной сети, объясняет Стивен Франк.
Франк работает в патентном бюро, а программированием занимается в свободное время. И он придумал остроумный способ обойти оба ограничения. Стивен и Андреа предположили, что в изображении могут быть закономерности, которые не считывают алгоритмы распознавания, оперирующие пикселями. Он называет эту характеристику «энтропией», имея в виду упорядоченность.
Для начала супруги Франк написали программу, которая «архивировала» полотна Рембрандта, высчитывая показатель энтропии, то есть их повторяемости. Для этого ИИ не понадобился. Но анализ полученных данных с помощью нейронной сети показал два важных факта.
Во-первых, с такой информацией работать намного проще, чем с высокодетализированными изображениями. Во-вторых, в показателях «энтропии» фрагментов картин найденные закономерности сохранялись.
Размножение данных
300 с лишним картин с подтвержденным авторством Рембрандта — это примерно 5% от минимальной выборки, необходимой для тренировки ИИ, указывает IEEE Spectrum. Для тренировки нейросети, которая бы отличала оригиналы от подделок, нужна библиотека из примерно 5000 изображений. А затем еще 5000 подделок и имитаций для проверки результата.
Франки опытным путем убедились, что фрагменты размером 400×400 пикселей сохраняют показатели «энтропии», характерные для целых картин. Они разбили цельные картины художника на 13 000 сэмплов — и натренировали сверточную нейросеть на этом массиве данных.
Стивен утверждает, что обученный таким образом ИИ распознает оригиналы Рембрандта с точностью 90,4%. Причем наилучшие результаты дает анализ не отдельных мазков, а довольно больших фрагментов композиций — например, головы, когда речь идет о портрете.
«Это говорит нам о том, что современники Рембрандта, вероятно, очень хорошо имитировали его на уровне мазка… Если вы действительно хотите увидеть, что отличает Рембрандта, вы должны взглянуть на большую часть холста и на более высокий уровень композиции», — рассуждает он.
По мнению Франка, та же технология может значительно сократить ресурсы и одновременно повысить качество работы многих медицинских алгоритмов. Сейчас для нужд ИИ полученные в ходе радиологических исследований изображения часто уменьшают. Как и картины, они чересчур детальны для того, чтобы быстро обучить нейросеть и применять ее на практике.
«Архивирующая» до показателей энтропии надстройка позволит проанализировать данные во всей полноте.
Бельгийские ученые недавно представили остроумную технологию для обмана умных камер слежения. Необычный принт на футболке буквально делает человека невидимым для определенных алгоритмов обработки.
Аукционный дом Sotheby’s пытается с помощью ИИ предсказать, какие картины понравятся клиентам. Разработчики алгоритма тоже называют дефицит данных одной из главных проблем.