Hitech logo

Тренды

Компания Цукерберга выпустила языковую модель для перевода на 100 языков

TODO:
Екатерина Шемякинская23 августа 2023 г., 12:14

Компания Meta (организация признана экстремистской и запрещена на территории России) анонсировала SeamlessM4T — мультимодальную модель искусственного интеллекта для перевода речи и текстов. Нейросеть обрабатывает как текст, так и аудио и поддерживает до 100 языков. Цель инструмента — помочь людям, говорящим на разных языках, более эффективно общаться друг с другом.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

SeamlessM4T выполняет распознавание речи, перевод речи в текст (переводит речь на другой язык в текстовом формате), перевод речи в речь (пользователь передает речевой звук, а ИИ выводит переведенную речь), перевод текста в текст (аналогично тому, как работает Google Translate) и перевод текста в речь (можно скормить нейросети текст, а она переведет и озвучит его на другом языке). Каждая из функций перевода текста поддерживает 100 языков, а функции речевого вывода поддерживают 36 языков.

Создание универсального языкового переводчика является сложной задачей, поскольку существующие системы преобразования речи в речь и речи в текст охватывают лишь небольшую часть языков мира. Согласно исследовательской статье Seamless4MT, ученые компании-разработчика создали мультимодальный корпус автоматически синхронизированных речевых переводов объемом более 470 000 часов, который был назван SeamlessAlign. Затем они отфильтровали подмножество этого корпуса с помощью данных, размеченных людьми и псевдо-размеченных, общим объемом 406 000 часов.

Компания расплывчато объясняет, откуда она взяла данные для обучения. Текстовые данные были получены из Википедии, новостных источников, сценариев речей и других источников, и переведены профессиональными переводчиками. А речевые данные SeamlessM4T получены из «4 миллионов часов необработанного аудио, взятого из общедоступного репозитория свободно доступных веб-данных», из которых 1 миллион часов были на английском языке. Компания не уточнила, какой репозиторий был использован и откуда были взяты использованные аудиофрагменты.

Продолжая относительно открытый подход к искусственному интеллекту, компания выпускает SeamlessM4T под исследовательской лицензией, которая позволяет другим разработчикам развивать эту работу. Это, вероятно, станет толчком для обучения будущих моделей искусственного интеллекта в области перевода от других исследователей.

Meta (организация признана экстремистской и запрещена на территории России) — далеко не первая компания, занимающаяся искусственным интеллектом, предлагающая инструменты машинного перевода. Google Translate использует методы машинного обучения с 2006 года, а большие языковые модели (такие как GPT-4) хорошо известны своей способностью переводить. Но в последнее время технологии в области обработки звука стали активнее. В сентябре OpenAI выпустила собственную модель перевода речи в текст с открытым исходным кодом под названием Whisper, которая может распознавать речь в аудиофайлах и переводить ее в текст с высоким уровнем точности.

SeamlessM4T продолжает эту тенденцию, расширяя мультимодальный перевод на гораздо большее количество языков. Кроме того, компания утверждает, что «односистемный подход» SeamlessM4T — это монолитная модель искусственного интеллекта, а не несколько моделей, объединенных в цепочку (как некоторые предыдущие методы обработки звука от этой же компании), что снижает ошибки и повышает эффективность процесса перевода.