Logo
Cover

Чтобы понять, чего от них хочет пользователь, голосовым помощникам необходимо подключаться к облачным серверам, где ИИ-алгоритм получает вычислительную мощность и данные. Однако разработчикам Amazon удалось научить Alexa распознавать речь своими силами — что выводит умные колонки на принципиально новый уровень «интеллекта».

На распознавание вашего вопроса или команды виртуальному помощнику требуются миллисекунды. Однако при одном условии — доступе через интернет к облачным серверам с их огромной вычислительной мощностью. В режиме оффлайн любая умная колонка превращается в абсолютно бесполезную пластиковую коробку.

Команда Alexa Machine Learning из Amazon отчасти решила эту проблему, научив голосового ассистента работать автономно. Правда, набор функций, которые ИИ-алгоритм может выполнять, полагаясь только на процессор самой колонки, пока весьма ограничен.

Alexa научилась выполнять работу навигатора, проигрывать музыку и менять температуру в помещении без доступа в интернет.

Результаты исследования «Статистическая модель сжатия словоформ естественного языка для машинного распознавания» будут подробно представлены на конференции ИИ-разработчиков в индийском Хайдарабаде.

Сейчас разработчики вкратце объяснили принципы работы новой ИИ-системы.

Главная проблема, которую удалось решить — сжатие ключевых моделей машинного обучения для экономии места в памяти устройства. Для этого были применены квантование параметров и идеальное хеширование ключевых словоформ из голосовых команд.

Квантование — это методика сжатия алгоритмической модели. Для этого исследователи разделили так называемый вес (то есть роль в процессе вычислений) каждого ключевого слова в голосовой команде на 256 интервалов, что позволило представить каждый «вес» в компьютерной модели в виде одного байта данных. Низкие «веса» затем округлили до нуля, что позволило ими пренебречь, сообщает VentureBeat.

Про второй метод — идеального хеширования — Грант Стримел, ведущий автор исследования написал в своем блоге: «Например, если размер выходного файла 16 бит с 65536 возможными значениями хеш-функции, „единица“ означает „Weezer“ (американская рок-группа), а значение „50“ соответствует имени „Элтон Джон“. Для того, чтобы разобраться, какое именно значение заложено в хеш-функции, ИИ-алгоритму и приходится обращаться к облачным метаданным. А это требует очень больших объемов памяти».

Метод идеального хеширования отображает определенное количество элементов данных в одно и то же количество слотов памяти. «Никаких метаданных не требуется», — пишет Стримел.

Сочетание двух методов «сжатия» данных позволило уменьшить объем требуемой для работы алгоритма распознавания голоса памяти в 14 раз по сравнению с онлайн-моделями машинного обучения.

Погрешность вычислений при работе оффлайн возросла всего на 1%. Это совсем небольшая плата за автономность умных колонок и других устройств с голосовыми помощниками, которые получают все более широкое распространение.

Ранее разработчики научили Alexa искать ответы на вопросы, на которые ассистент не смог ответить сразу. Обновление Answer Update позволяет Alexa запоминать вопросы, искать труднодоступную информацию и через некоторое время выдавать ее пользователю.