Алгоритм от Alibaba читает по губам с недостижимой ранее точностью
Logo
Cover

Секрет программы заключается в том, что при ее обучении используется видеозапись со звуком. Это позволяет ей извлекать информацию как из отдельных кадров, так и из контекста.

Алгоритмы, способные читать по губам, существуют уже несколько лет, однако по точности они намного уступают системам распознавания голоса. Исследователи из компании Alibaba, Чжэцзянского университета и Технологического института Стивенса решили усовершенствовать технологию.

Как сообщает Venture Beat, команда разработала методику Lip by Speech (LIBS), при обучении которой одновременно используется как чтение по губам, так и распознавание речи. Чтобы настроить алгоритм, исследователи использовали два массива информации, которые содержат 45 000 и 100 000 фраз на китайском соответственно.

Особый подход к обучению позволил программе глубже понимать содержание видео. Получившийся в итоге алгоритм справляется с чтением по губам намного лучше аналогов.

Например, ему под силу расшифровывать предложения короче 14 символов. Секрет в том, что программа извлекает полезную информацию на трех уровнях — не только из каждого кадра, но также анализируя их последовательность и контекст, то есть раннее расшифрованные фразы.

В ближайшем будущем алгоритмы типа LIBS серьезно облегчат жизнь людей с нарушениями слуха. Они смогут просматривать видео или телепередачи, не снабженные субтитрами.

Необычный алгоритм разработали исследователи из Южной Кореи. Программа MarioNETte позволяет создавать убедительные дипфейки на основе единственной фотографии.