Hitech logo

мозг

Компьютерную модель научили распознавать речь, предсказывая ее

TODO:
Георгий Голованов29 июня 2020 г., 15:59

Швейцарские ученые разработали нейронную модель, помогающую объяснить, как мозг идентифицирует слоги в естественной речи. Она использует эквивалент нейронных колебаний мозга для обработки продолжительности звуков речи. Модель функционирует согласно теории предиктивного кодирования, когда мозг оптимизирует восприятие, постоянно предсказывая сенсорные сигналы.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Мозг человека производит нейронные осцилляции, которые можно измерить с помощью ЭЭГ. Это электромагнитные волны, которые возникают от когерентной электрической активности сетей нейронов. Их несколько типов, различающихся по частоте колебания — альфа, бета, тета, дельта и гамма. Они связаны с когнитивными функциями, такими как восприятие, память, внимание и так далее.

Однако нейробиологи не знают, как именно они воздействуют на когнитивные функции. Группа ученых под руководством профессора Анне-Лиз Жиро из Университета Женевы в 2015 году показала, что тета-волны и гамма-волны координируют цепочку звуков в слогах. Теперь ученые разработали компьютерную модель нейронной сети, производительность которой в секвенировании живой разговорной речи превосходит автоматические системы распознавания речи, пишет Science Daily.

В этой модели тета-волны (от 4 до 7 Гц) позволяют следовать ритму слогов. Гамма-волны (около 80 Гц) используются для нарезки звукового сигнала на меньшие куски и их кодирования.

Так возникает фонемный профиль, связанный с каждой последовательностью звуков, которую можно сопоставить с библиотекой известных слогов. Одно из преимуществ такой модели в том, что она спонтанно адаптируется к скорости речи.

Для того чтобы придерживаться биологических реалий, профессор Жиро и ее команда использовали теорию предиктивного кодирования. Она утверждает, что мозг функционирует так хорошо потому, что постоянно пытается понять и предсказать, что произойдет дальше, на основе изученных моделей. В случае устной речи он ищет наиболее вероятные объяснения для звуков.

В итоге система работает так: входящий звук модулируется тета-волной, что позволяет понять контуры слога. Гамма-волны помогают закодировать слог. Во время этого процесса система предлагает возможные варианты звуков и корректирует выбор при необходимости. Повторив эти шаги несколько раз подряд, система получает верный слог.

Модель успешно протестировали с помощью 2888 различных слогов в 220 предложениях на английском языке.

«С одной стороны, нам удалось соединить два различных теоретических фреймворка в одной компьютерной модели, — пояснила профессор Жиро. — С другой, мы показали, что нейронные колебания, скорее всего, ритмически соответствуют эндогенной функции мозга с сигналами, которые поступают через органы восприятия. Если мы поместим это в теорию предиктивного кодирования, это будет значить, что осцилляции вероятно позволяют мозгу строить верные догадки в нужный момент».

Для облегчения коммуникации людям, потерявшим возможность разговаривать, врачи из США разработали технологию записи речи непосредственно из мозга. Во время тестирования искусственной речи более половины времени участники понимали, о чем «говорит» компьютер.