Суть новации и ссылки на открытый с нынешнего дня код Facebook выложила на своем сайте. Алгоритм-переводчик wav2letter++ описан на сайте Arxiv, где его называют самой быстрой системой такого рода с открытым кодом. Инженеры Facebook говорят, что это достигнуто благодаря использованию исключительно сверточных слоев на всем протяжении работы — от поступления звуковой волны до транскрипции распознанного слова.
wav2letter++ и Flashlight, разработанные группой Facebook AI Research, позволят воспользоваться наработками сторонним командам, распространяя и модифицируя передовую технологию, подчеркивается в пресс-релизе.
Facebook указывает, что wav2letter++ легко масштабировать на многие языки, особенно с учетом того, что алгоритм обучается не на размеченных данных, а просто слушая необработанную речь, причем с разными параметрами по качеству, громкости, четкости и т. п.
Инженеры указывают, что на сете данных Librispeech алгоритм оказался в числе лучших переводчиков, включая алгоритм Deep Speech 2, который был натренирован на в 12 раз более значительном массиве акустических данных.
ИИ-команда Facebook работает как над утилитарными алгоритмами, там и над теми, что призваны изменить мир и не несут немедленной выгоды. В числе первых — ИИ для вычисления семьи и связей пользователя для лучшего таргетинга рекламы. Приме последнего — алгоритм для придания правдоподобия виртуальной реальности.