Hitech logo

Идеи

Алгоритм научился читать по губам с недостижимой для человека точностью

TODO:
Юлия Красильникова1 августа 2018 г., 15:02

Лаборатория DeepMind научила нейросеть читать по губам с точностью в 59%. По этому показателю искусственный интеллект превзошел своих предшественников, а также профессиональных чтецов. Технология предназначена для людей с нарушением слуха и речи, но воспользоваться ей смогут и спецслужбы.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В ходе эксперимента алгоритм лаборатории DeepMind изучил видеоролики без звука c говорящими людьми общей продолжительностью 37 минут. Нейросеть оценивала записи впервые, но при этом смогла расшифровать речь в большинстве случаев. ИИ ошибочно распознал лишь 41% слов.

Для сравнения, предыдущий алгоритм от других разработчиков ошибался в 77% случаев. Специалисты по зрительному восприятию речи справились с задачей еще хуже и некорректно расшифровали 93% слов.

Как поясняет Science, лаборатория DeepMind добилась такого высокого показателя благодаря новому методу машинного обучения. Предыдущие алгоритмы пытались распознавать отдельные буквы в речи, тогда как новая система анализировала фонемы — минимальные звуковые единицы языка.

Для обучения алгоритма разработчики отобрали на YouTube 140 часов видео, на которых люди разговаривают в различных ситуациях. Затем специальная программа выделила только те части видео, где люди разговаривали на английском языке и их хорошо было видно в анфас. Система обрезала видео, оставив лишь кадры с отчетливыми движениями рта при говорении.

В результате DeepMind составила базу видео продолжительностью 4000 часов, состоящую из коротких роликов в несколько секунд с аннотациями. Таким образом, разработчики собрали более 127 тысяч английских слов с обозначением фонем в каждом из них.

Полученная база данных в семь раз превосходит аналоги и позволяет нейросети расшифровывать беззвучно произносимые слова с беспрецедентной точностью. Система обрабатывает видеоконтент в несколько этапов, что также повышает качество расшифровки. Кроме того, ИИ понимает, как фонемы влияют друг на друга. Так, движения рта при произнесении английской t будут разными в словах boot и beet — и программа это учитывает.

Технология позволит создать приложение, которое поможет неслышащим людям распознавать речь собеседников. Люди с нарушениями речи также смогут воспользоваться ИИ-системой в качестве персонального расшифровщика. Но у алгоритма есть и другие сценарии применения. Его можно использовать для расшифровки речи на архивных видео, записанных без звука, а также для анализа видеозаписей с камер слежения. Алгоритм очень заинтересует и спецслужбы, считают эксперты.

Искусственный интеллект приобретает все больше возможностей с каждым годом. Современные алгоритмы не только распознают лица и голоса, но также понимают эмоции людей разных рас, устанавливают национальность по почерку и определяют характер по движению глаз. При этом многие эксперты опасаются, что подобные функции превратят ИИ в мощный инструмент контроля и слежки за людьми.