Когда человек говорит, он неосознанно продумывает, как его слова будут произнесены артикулярным аппаратом. Это означает, что мозг формирует всю деятельность, связанную с речью, заранее. При этом, ученые предположили, что активность мозга в момент, когда он «слушает» речь, и когда он ее «произносит», идентична. То есть, научившись понимать, что слышит человек, имея на руках тексты и часы записей мозговой активности, можно попытаться включить алгоритм для работы в обратную сторону.
Ученые из Meta решили «поймать» и декодировать речь на стадии ее формирования. Для этого они применили алгоритм машинного обучения, который в реальном времени анализирует данные электроэнцефалограммы, а затем интерпретирует их.
«Мы разработали модель искусственного интеллекта, которая может декодировать речь из неинвазивных записей активности мозга. Расшифровка речи по активности мозга была давней целью нейробиологов и клиницистов, но большая часть прогресса была достигнута лишь благодаря инвазивным процедурам», — рассказала Silicon Angle ведущий автор исследования Джин Реми Кинг.
Как объяснила Кинг, ранее лучшим способом ознакомления с мозговой активностью считался процесс, при котором хирурги вскрывали череп, подключали к мозгу электроды, а затем изучали полученную информацию на компьютере. У этой процедуры было всего две альтернативы — электроэнцефалограмма (ЭЭГ) и магнитоэнцефалография (МЭГ). Обе системы были способны делать снимки мозга на уровне миллисекунд, но уступали варианту с хирургической операцией в точности.
«Неинвазивные записи, как известно, шумны и могут сильно различаться в зависимости от сеансов записи и отдельных людей по целому ряду причин, включая различия в мозге каждого человека и в том, где расположены датчики», — добавила представитель Meta.
Чтобы решить эту проблему, ученые обратились к алгоритму, который был настроен на очистку ЭЭГ и МЭГ от шумов. В качестве основного инструмента они выбрали wave2vec 2.0 — модель с открытым исходным кодом, разработанную в Meta два года назад. Изначально этот ИИ был предназначен для распознавания речи в шумной среде.
Разработчики поручили алгоритму проанализировать записи ЭЭГ и МЭГ, состоящие из 150 часов процедур, во время которых врачи работали со 169 добровольцами, слушающими аудиокниги и отдельные предложения на английском языке. Записи стали тренировочным набором для wave2vec 2.0. Со временем алгоритм научился чистить записи и начал находить закономерности в изменениях активности мозга.
«Учитывая различные фрагменты активности мозга, ИИ может определить из большого количества новых аудиоклипов, какие из них человек действительно слышал. Отсюда алгоритм делает вывод о конкретных словах, которые человек, скорее всего, слышал», — сообщили в Meta Labs.
В ходе исследования инженеры подтвердили, что ИИ можно научить декодировать шумные и переменные записи активности мозга из воспринимаемой речи. Следующим шагом Meta Labs будет изучение поведения мозговых волн без заранее подготовленного пула аудиоклипов. А конечная цель исследования — дать парализованным пациентам возможность общаться через трансляцию речи без ее произнесения.