Hitech logo

Медицина будущего

«Голосовое протезирование с ИИ» превратит мозговые волны немых людей в беглую речь

TODO:
Дарина Житова22 апреля, 11:54

Учёные продвинулись в создании технологии, которая позволяет превращать мозговые сигналы в синтезированную речь. Это поможет людям, которые утратили возможность говорить после травм или заболеваний, хотя их сознание остаётся ясным. Исследователи считают, что система может помочь и тем, кто с рождения испытывает сложности с устной речью, включая людей с аутизмом или церебральным параличом. Учёные также отмечают, что речь идёт не о чтении мыслей — чтобы устройство декодировало сигнал, нужно намерение пациента «произнести» его.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В марте 2025 года нейрохирург Эдвард Чанг из Калифорнийского университета и его команда рассказали в журнале Nature Neuroscience об эксперименте с женщиной, которая не могла говорить после инсульта на протяжении 18 лет. Она мысленно проговаривала фразы, собранные из более чем тысячи слов, и на этом материале нейросеть обучалась распознавать её намерения. Затем система преобразовывала мозговые сигналы в речь, синтезируя звук голоса.

Задержка между импульсом и произнесённым словом сократилась до одной секунды — это приближает результат к нормальному диапазону в 100–200 миллисекунд. Скорость декодирования составила почти 48 слов в минуту, что примерно в три раза ниже темпа живой речи.

Компания Precision Neuroscience также работает в этом направлении. Её глава Майкл Магер утверждает, что их сенсоры способны считывать сигналы мозга с более высокой детализацией благодаря плотной компоновке электродов. Устройства уже протестировали на 31 человеке.

Разрешение на имплантацию сроком до месяца позволит накопить уникальный объём нейронных данных. Магер считает, что следующим этапом станет уменьшение размеров компонентов и их полная адаптация к условиям человеческого организма, чтобы имплантаты можно было устанавливать на постоянной основе.

При этом технология пока не достигла уровня, сравнимого с обычной речью. Точность распознавания выросла до 98%, но речь всё ещё не может мгновенно отражать эмоции или интонацию. Учёные хотят добиться не только точности, но и выразительности, чтобы пациенты смогли управлять ритмом, тембром и даже интонацией голоса, включая возможность пения.

Серьёзной проблемой остаётся длительное индивидуальное обучение — оно может занимать десятки или сотни часов. Исследователи пытаются выяснить, насколько различаются нейронные паттерны речи у разных людей. Если они окажутся схожими, предварительно обученные модели смогут применяться повторно и ускорят процесс.

Специалисты подчёркивают, что речь идёт не о чтении мыслей. Все участники проекта едины во мнении: нельзя расшифровывать то, что человек не собирался произносить. Один из исследователей привёл пример — даже сам он не всегда говорит вслух то, что думает, потому что это может быть вредно для него или окружающих.