Hitech logo

искусственный интеллект

Google создает языковую модель на 1000 языков и уже успешно ее применяет

TODO:
Георгий Голованов7 марта 2023 г., 09:34

Спор с Microsoft о том, чей чатбот лучше, не единственное занятие Google. Есть и другие способы применения машинного обучения и языковых моделей. На отчетной конференции I/O компания намерена показать свыше 20 продуктов, созданных на основе ИИ. Помимо этого, Google ведет разработку языковой модели с поддержкой тысячи языков. Вчера компания рассказала об успехах в создании этой Универсальной языковой модели.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В прошлом ноябре Google объявила о планах по созданию языковой модели, поддерживающей 1000 самых распространенных языков мира, которую назвала Универсальной языковой моделью (Universal Speech Model, USM). Разработчики описывают ее как «семейство передовых языковых моделей» с двумя миллиардами параметров, прошедших обучение на 12 млн часах речи и 28 млрд предложений на 300 с лишним языках. На некоторых из языков этой тысячи говорят менее 20 млн человек, отмечают авторы.

Эту модель уже применяет YouTube для автоматического создания субтитров и распознания речи. Она распознает и переводит с ряда языков, в том числе, не только с английского и китайского, но и с амхарского, себуано, азербайджанского и многих других. Сейчас USM поддерживает свыше 100 языков и станет основой для создания еще более обширной системы.

В отчете, опубликованном в блоге Google, говорится, что использование большого непомеченного многоязычного набора данных для предварительного обучения программы кодирования модели и тонкой настройки с помощью меньшего набора данных позволяет работать даже с редкими языками. Более того, уникальный процесс обучения эффективно адаптируется к новым языкам и данным.

Исследователи продемонстрировали эффективность предварительно обученной программы на примере создания субтитров в YouTube. Набор данных включал 73 языка и в среднем менее 3000 часов записей на один язык. Несмотря на эти ограничения, модель показала средний коэффициент ошибок менее 30%. Такого успеха команда Google прежде не достигала.

Одним из направлений развития этой технологии могли бы стать очки дополненной реальности вроде тех, которое Google показывала на прошлом I/O и которые в состоянии распознать иностранную речь и перевести ее в синхронном режиме. Виртуальный текст субтитров возникает перед глазами. Правда, пока технология не доработана, что доказала неверная интерпретация системой арабского языка, которая произошла во время прошлой конференции.

В конце января Google представила исследование о системе MusicLM, которая создает музыку в любом жанре по текстовым описаниям. MusicLM использует обширную обучающую базу данных из 280 000 часов музыки и умеет писать композиции по абстрактным описаниям. Но ИИ-модель недоступна для пользователей из-за сложностей с авторскими правами.