Hitech logo

Идеи

Модель Meta Labs декодирует речь по активности мозговых волн

TODO:
Степан Икаев11 сентября 2022 г., 17:23

Инженеры из Facebook AI Research Labs разработали алгоритм, понимающий по активности мозга, что слышит человек. Система сканирует мозговые волны с помощью ЭЭГ-аппарата, а затем определяет, какие слова и предложения человек слышал раньше или слышит сейчас. Пока технология распространяется только на входящие данные, но цель разработчиков в другом — использовать обученный алгоритм в обратную сторону, чтобы он формировал речь по активности мозга.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Когда человек говорит, он неосознанно продумывает, как его слова будут произнесены артикулярным аппаратом. Это означает, что мозг формирует всю деятельность, связанную с речью, заранее. При этом, ученые предположили, что активность мозга в момент, когда он «слушает» речь, и когда он ее «произносит», идентична. То есть, научившись понимать, что слышит человек, имея на руках тексты и часы записей мозговой активности, можно попытаться включить алгоритм для работы в обратную сторону.

Ученые из Meta решили «поймать» и декодировать речь на стадии ее формирования. Для этого они применили алгоритм машинного обучения, который в реальном времени анализирует данные электроэнцефалограммы, а затем интерпретирует их.

«Мы разработали модель искусственного интеллекта, которая может декодировать речь из неинвазивных записей активности мозга. Расшифровка речи по активности мозга была давней целью нейробиологов и клиницистов, но большая часть прогресса была достигнута лишь благодаря инвазивным процедурам», — рассказала Silicon Angle ведущий автор исследования Джин Реми Кинг.

Как объяснила Кинг, ранее лучшим способом ознакомления с мозговой активностью считался процесс, при котором хирурги вскрывали череп, подключали к мозгу электроды, а затем изучали полученную информацию на компьютере. У этой процедуры было всего две альтернативы — электроэнцефалограмма (ЭЭГ) и магнитоэнцефалография (МЭГ). Обе системы были способны делать снимки мозга на уровне миллисекунд, но уступали варианту с хирургической операцией в точности.

«Неинвазивные записи, как известно, шумны и могут сильно различаться в зависимости от сеансов записи и отдельных людей по целому ряду причин, включая различия в мозге каждого человека и в том, где расположены датчики», — добавила представитель Meta.

Чтобы решить эту проблему, ученые обратились к алгоритму, который был настроен на очистку ЭЭГ и МЭГ от шумов. В качестве основного инструмента они выбрали wave2vec 2.0 — модель с открытым исходным кодом, разработанную в Meta два года назад. Изначально этот ИИ был предназначен для распознавания речи в шумной среде.

Разработчики поручили алгоритму проанализировать записи ЭЭГ и МЭГ, состоящие из 150 часов процедур, во время которых врачи работали со 169 добровольцами, слушающими аудиокниги и отдельные предложения на английском языке. Записи стали тренировочным набором для wave2vec 2.0. Со временем алгоритм научился чистить записи и начал находить закономерности в изменениях активности мозга.

«Учитывая различные фрагменты активности мозга, ИИ может определить из большого количества новых аудиоклипов, какие из них человек действительно слышал. Отсюда алгоритм делает вывод о конкретных словах, которые человек, скорее всего, слышал», — сообщили в Meta Labs.

В ходе исследования инженеры подтвердили, что ИИ можно научить декодировать шумные и переменные записи активности мозга из воспринимаемой речи. Следующим шагом Meta Labs будет изучение поведения мозговых волн без заранее подготовленного пула аудиоклипов. А конечная цель исследования — дать парализованным пациентам возможность общаться через трансляцию речи без ее произнесения.

* Компания Meta признана в России экстремистской, использование в стране сервисов Facebook и Imstagram запрещено.