Разработчики говорят, что их алгоритм отличается от традиционного ПО для обработки изображений. Обычно для обучения таких алгоритмов требуется большая база, в которой промаркированы как объекты, так и аудиофайлы. На их основе и происходит обучение.
Новому алгоритму, созданному в MIT, не нужно предварительно маркировать материал и транскрибировать звуковые дорожки. ИИ самостоятельно учится сопоставлять звуковое описание с объектом в кадре.
Сейчас алгоритм способен справиться с несколькими сотнями слов и типов объектов. Он эффективно связывает в пары уже знакомые слова и объекты.
В научной статье о работе алгоритма приводится пример работы системы. Исследователи показали алгоритму изображение молодой блондинки с голубыми глазами, одетой в синее платье. На заднем плане картины был белый маяк с красной крышей. Модель научилась ассоциировать пиксели изображения со словами «девушка», «светлые волосы», «голубые глаза», «синее платье», «белый маяк» и «красная крыша». И успешно выделила каждый из этих объектов на изображении, в том порядке, в котором они были описаны на звукозаписи, пишет сайт MIT.
Пока алгоритм сопоставляет лишь пары слов и путается в более сложных ситуациях, но создатели говорят, что система быстро учится и в будущем сэкономит тысячи часов времени.
Системы распознавания речи, такие как Siri и Google Voice, например, требуют транскрипции тысяч часов речевых записей. Используя эти данные, системы учатся сопоставлять речевые сигналы с конкретными словами. Но если использовать новый подход, вручную маркировать каждый отдельный элемент, на котором учится нейронная сеть, не придется.
На дефицит звуковых баз данных в интервью Хайтек+ указывал глава Центра речевых технологий Дмитрий Дырмовский. По его оценке, баз изображений «в миллион раз больше», чем качественных звуковых.
Алгоритмы на основе методов ИИ становятся все более разнообразными. Стартап TrueAccord заявил, что будет подталкивать должников к уплате долга с помощью ИИ-коллектора. Другая команда из MIT создает систему, которая определит депрессию по манере письма или разговора, а еще один алгоритм умеет читать по губам.