Hitech logo

искусственный интеллект

Meta представила новый ИИ для клонирования голосов и генерации звуков

TODO:
Дарина Житова12 декабря 2023 г., 16:07

Meta (компания признана экстремистской и запрещена в РФ) выпустила собственную бесплатную программу для клонирования голоса, Audiobox. ПО хорошо имитирует голоса людей и разные звуки, например, лай собак или пение птиц. Оно опирается на аудиозаписи и текстовые подсказки. Но есть подвох: его запрещено использовать в коммерческих целях, а также в некоторых регионах, таких как Техас и Иллинойс.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Чтобы воспользоваться программой, достаточно загрузить исходную аудиозапись и ввести текстовые подсказки. Можно получить естественные результаты для разных ситуаций — озвучки роликов, записи поздравлений, научных докладов, песен и т. д. Люди, у которых проблемы с речью, могут с помощью неё выражать свои мысли вслух и даже передавать эмоции — ПО может изображать волнение, восторг, злость, испуг. Голоса знаменитостей программа не использует, чтобы избежать проблем с законом.

В основе продукта лежит целое семейство генеративных ИИ, создающих аудио. Некоторые из моделей копируют и воспроизводят голоса, другие отвечают за различные шумы и эффекты. Все они созданы на основе одной самообучающейся модели Audiobox SSL.

Её тренировали на 160 000 часах аудиозаписей от людей из 150 стран мира, которые говорили на 200 языках, а также на 20 000 часах записей музыки и 6 000 часов разных звуковых эффектов — от капели до скрипа. В речевую часть вошли аудиокниги, подкасты, записи лекций и публичных выступлений, беседы в естественной обстановке. Исследователи не уточнили, откуда они взяли данные для обучения модели и получили ли они согласие тех, чьи голоса использовали. Сейчас это выясняют СМИ, но такая большая компания обычно заботится о соблюдении законов.

Чтобы продемонстрировать возможности Audiobox, разработчики выпустили ряд интерактивных демонстраций. Одна из низ позволяет записать аудио пользователя, произносящего текст примерно одного предложения, и озвучивает его голосом длинные тексты. Те, кто уже протестировал новинку, сообщают, что голоса в целом похожи, но иногда отличаются от оригинала.

ПО также позволяет генерировать совершенно новые голоса из текстовых описаний, например, «низкий женский голос», «высокий голос мужчины из США» и т. д. Также можно добавлять новые эффекты к уже существующей записи, менять темп речи и стиль исполнения песен.

Интересно, что исходный код Audiobox закрыт, хотя ранее компания-разработчик обязалась выпускать прозрачные продукты с открытым кодом.