Hitech logo

Кейсы

Умные очки распознают беззвучные команды владельца по движению рта

TODO:
Екатерина Шемякинская7 апреля 2023 г., 16:31

Команда инженеров из Корнельского университета разработала экспериментальные сонарные очки EchoSpeech, которые с помощью искусственного интеллекта считывают произнесенные пользователем слова по движению рта. Гаджет может использоваться для бесшумного управления другими устройствами, а также помочь людям с нарушениями речи.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Два направленных вниз миниатюрных динамика установлены на нижней стороне оправы под одной из линз, а два мини-микрофона расположены под другой. Динамики излучают неслышимые звуковые волны, которые отражаются от движущегося рта пользователя и возвращаются к микрофонам.

Эти эхо-сигналы анализируются в режиме реального времени алгоритмом глубокого обучения на смартфоне, подключенном по беспроводной сети. Алгоритм обучили связывать эхо-сигналы с определенными движениями рта, которые, в свою очередь, связаны с теми или иными безмолвными командами.

EchoSpeech на данный момент способны распознавать 31​​ команду с точностью около 95%, при этом для каждого пользователя требуется всего несколько минут обучения. Что важно для конфиденциальности, система не включает в себя никаких камер и не отправляет какую-либо информацию в интернет.

Поскольку в очках не используется камера (в них стоят самые обычные линзы), устройство работает до 10 часов без подзарядки аккумулятора. Альтернативные системы с похожим функционалом, но на основе очков с камерами держатся всего около 30 минут на одном заряде.

Разработчики предлагают использовать очки для управления воспроизведением музыки без помощи рук и глаз в тихой библиотеке или для диктовки сообщения на громком концерте, когда из-за шума голосовые команды не распознаются. Люди с некоторыми типами нарушений речи могут использовать очки для передачи диалогов в голосовой синтезатор, который затем будет произносить слова вслух.

В той же лаборатории Корнельского университета ранее разработали похожую систему под названием EarIO, в которой используется ушное устройство, оснащенное сонаром, для захвата выражений лица владельца. Оно используется в основном для создания цифровых аватаров. Еще одна система EarCommand, созданная командой Университета в Буффало, читает слова, произносимые про себя. Специальный наушник считывает их через характерные деформации слухового прохода, вызванные определенными движениями рта.