В ходе эксперимента алгоритм лаборатории DeepMind изучил видеоролики без звука c говорящими людьми общей продолжительностью 37 минут. Нейросеть оценивала записи впервые, но при этом смогла расшифровать речь в большинстве случаев. ИИ ошибочно распознал лишь 41% слов.
Для сравнения, предыдущий алгоритм от других разработчиков ошибался в 77% случаев. Специалисты по зрительному восприятию речи справились с задачей еще хуже и некорректно расшифровали 93% слов.
Как поясняет Science, лаборатория DeepMind добилась такого высокого показателя благодаря новому методу машинного обучения. Предыдущие алгоритмы пытались распознавать отдельные буквы в речи, тогда как новая система анализировала фонемы — минимальные звуковые единицы языка.
Для обучения алгоритма разработчики отобрали на YouTube 140 часов видео, на которых люди разговаривают в различных ситуациях. Затем специальная программа выделила только те части видео, где люди разговаривали на английском языке и их хорошо было видно в анфас. Система обрезала видео, оставив лишь кадры с отчетливыми движениями рта при говорении.
В результате DeepMind составила базу видео продолжительностью 4000 часов, состоящую из коротких роликов в несколько секунд с аннотациями. Таким образом, разработчики собрали более 127 тысяч английских слов с обозначением фонем в каждом из них.
Полученная база данных в семь раз превосходит аналоги и позволяет нейросети расшифровывать беззвучно произносимые слова с беспрецедентной точностью. Система обрабатывает видеоконтент в несколько этапов, что также повышает качество расшифровки. Кроме того, ИИ понимает, как фонемы влияют друг на друга. Так, движения рта при произнесении английской t будут разными в словах boot и beet — и программа это учитывает.
Технология позволит создать приложение, которое поможет неслышащим людям распознавать речь собеседников. Люди с нарушениями речи также смогут воспользоваться ИИ-системой в качестве персонального расшифровщика. Но у алгоритма есть и другие сценарии применения. Его можно использовать для расшифровки речи на архивных видео, записанных без звука, а также для анализа видеозаписей с камер слежения. Алгоритм очень заинтересует и спецслужбы, считают эксперты.
Искусственный интеллект приобретает все больше возможностей с каждым годом. Современные алгоритмы не только распознают лица и голоса, но также понимают эмоции людей разных рас, устанавливают национальность по почерку и определяют характер по движению глаз. При этом многие эксперты опасаются, что подобные функции превратят ИИ в мощный инструмент контроля и слежки за людьми.