В прошлом ноябре Google объявила о планах по созданию языковой модели, поддерживающей 1000 самых распространенных языков мира, которую назвала Универсальной языковой моделью (Universal Speech Model, USM). Разработчики описывают ее как «семейство передовых языковых моделей» с двумя миллиардами параметров, прошедших обучение на 12 млн часах речи и 28 млрд предложений на 300 с лишним языках. На некоторых из языков этой тысячи говорят менее 20 млн человек, отмечают авторы.
Эту модель уже применяет YouTube для автоматического создания субтитров и распознания речи. Она распознает и переводит с ряда языков, в том числе, не только с английского и китайского, но и с амхарского, себуано, азербайджанского и многих других. Сейчас USM поддерживает свыше 100 языков и станет основой для создания еще более обширной системы.
В отчете, опубликованном в блоге Google, говорится, что использование большого непомеченного многоязычного набора данных для предварительного обучения программы кодирования модели и тонкой настройки с помощью меньшего набора данных позволяет работать даже с редкими языками. Более того, уникальный процесс обучения эффективно адаптируется к новым языкам и данным.
Исследователи продемонстрировали эффективность предварительно обученной программы на примере создания субтитров в YouTube. Набор данных включал 73 языка и в среднем менее 3000 часов записей на один язык. Несмотря на эти ограничения, модель показала средний коэффициент ошибок менее 30%. Такого успеха команда Google прежде не достигала.
Одним из направлений развития этой технологии могли бы стать очки дополненной реальности вроде тех, которое Google показывала на прошлом I/O и которые в состоянии распознать иностранную речь и перевести ее в синхронном режиме. Виртуальный текст субтитров возникает перед глазами. Правда, пока технология не доработана, что доказала неверная интерпретация системой арабского языка, которая произошла во время прошлой конференции.
В конце января Google представила исследование о системе MusicLM, которая создает музыку в любом жанре по текстовым описаниям. MusicLM использует обширную обучающую базу данных из 280 000 часов музыки и умеет писать композиции по абстрактным описаниям. Но ИИ-модель недоступна для пользователей из-за сложностей с авторскими правами.