Компьютерную модель научили распознавать речь, предсказывая ее
Logo
Cover

Швейцарские ученые разработали нейронную модель, помогающую объяснить, как мозг идентифицирует слоги в естественной речи. Она использует эквивалент нейронных колебаний мозга для обработки продолжительности звуков речи. Модель функционирует согласно теории предиктивного кодирования, когда мозг оптимизирует восприятие, постоянно предсказывая сенсорные сигналы.

Мозг человека производит нейронные осцилляции, которые можно измерить с помощью ЭЭГ. Это электромагнитные волны, которые возникают от когерентной электрической активности сетей нейронов. Их несколько типов, различающихся по частоте колебания — альфа, бета, тета, дельта и гамма. Они связаны с когнитивными функциями, такими как восприятие, память, внимание и так далее.

Однако нейробиологи не знают, как именно они воздействуют на когнитивные функции. Группа ученых под руководством профессора Анне-Лиз Жиро из Университета Женевы в 2015 году показала, что тета-волны и гамма-волны координируют цепочку звуков в слогах. Теперь ученые разработали компьютерную модель нейронной сети, производительность которой в секвенировании живой разговорной речи превосходит автоматические системы распознавания речи, пишет Science Daily.

В этой модели тета-волны (от 4 до 7 Гц) позволяют следовать ритму слогов. Гамма-волны (около 80 Гц) используются для нарезки звукового сигнала на меньшие куски и их кодирования.

Так возникает фонемный профиль, связанный с каждой последовательностью звуков, которую можно сопоставить с библиотекой известных слогов. Одно из преимуществ такой модели в том, что она спонтанно адаптируется к скорости речи.

Для того чтобы придерживаться биологических реалий, профессор Жиро и ее команда использовали теорию предиктивного кодирования. Она утверждает, что мозг функционирует так хорошо потому, что постоянно пытается понять и предсказать, что произойдет дальше, на основе изученных моделей. В случае устной речи он ищет наиболее вероятные объяснения для звуков.

В итоге система работает так: входящий звук модулируется тета-волной, что позволяет понять контуры слога. Гамма-волны помогают закодировать слог. Во время этого процесса система предлагает возможные варианты звуков и корректирует выбор при необходимости. Повторив эти шаги несколько раз подряд, система получает верный слог.

Модель успешно протестировали с помощью 2888 различных слогов в 220 предложениях на английском языке.

«С одной стороны, нам удалось соединить два различных теоретических фреймворка в одной компьютерной модели, — пояснила профессор Жиро. — С другой, мы показали, что нейронные колебания, скорее всего, ритмически соответствуют эндогенной функции мозга с сигналами, которые поступают через органы восприятия. Если мы поместим это в теорию предиктивного кодирования, это будет значить, что осцилляции вероятно позволяют мозгу строить верные догадки в нужный момент».

Для облегчения коммуникации людям, потерявшим возможность разговаривать, врачи из США разработали технологию записи речи непосредственно из мозга. Во время тестирования искусственной речи более половины времени участники понимали, о чем «говорит» компьютер.