Алгоритмы, способные читать по губам, существуют уже несколько лет, однако по точности они намного уступают системам распознавания голоса. Исследователи из компании Alibaba, Чжэцзянского университета и Технологического института Стивенса решили усовершенствовать технологию.
Как сообщает Venture Beat, команда разработала методику Lip by Speech (LIBS), при обучении которой одновременно используется как чтение по губам, так и распознавание речи. Чтобы настроить алгоритм, исследователи использовали два массива информации, которые содержат 45 000 и 100 000 фраз на китайском соответственно.
Особый подход к обучению позволил программе глубже понимать содержание видео. Получившийся в итоге алгоритм справляется с чтением по губам намного лучше аналогов.
Например, ему под силу расшифровывать предложения короче 14 символов. Секрет в том, что программа извлекает полезную информацию на трех уровнях — не только из каждого кадра, но также анализируя их последовательность и контекст, то есть раннее расшифрованные фразы.
В ближайшем будущем алгоритмы типа LIBS серьезно облегчат жизнь людей с нарушениями слуха. Они смогут просматривать видео или телепередачи, не снабженные субтитрами.
Необычный алгоритм разработали исследователи из Южной Кореи. Программа MarioNETte позволяет создавать убедительные дипфейки на основе единственной фотографии.