Hitech logo

искусственный интеллект

Компания Цукербергера представила генеративную модель для синтеза голоса

TODO:
Георгий Голованов19 июня 2023 г., 11:27

Исследовательский отдел американской компании Meta Platforms (ее деятельность в России запрещена) анонсировал модель машинного обучения Voicebox, способную генерировать устную речь из текста. Среди других моделей, работающих в той же сфере, ее выделяет возможность выполнять множество задач, которым она не была обучена, в частности, редактирование, удаление шумов, наложение стилей. Модель была обучена по специальному методу, разработанному инженерами компании. Компания не собирается в ближайшее время предоставлять доступ к Voicebox из боязни злоупотреблений.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Voicebox — генеративная модель, умеющая синтезировать человеческую речь на шести языках: английском, французском, испанском, немецком, польском и португальском. Как большие языковые модели (LLM), ее обучили выполнять самые широкие задачи. Но если LLM основана на статистических закономерностях языка и текста, то Voicebox натренирована изучать правила, связывающие аудиозаписи голоса с транскрипцией, пишет Venture Beat.

Такую модель можно использовать для решения множества задач с минимальной настройкой. «Наша цель — создание единой модели, которая может выполнять множество задач генерации речи посредством обучения в контексте», — написали разработчики в технической документации Voicebox.

Обучение модель прошла по методу Flow Matching, изобретенному в Meta*. Он более эффективный и генерализуемый, чем диффузионные методы, которые применяются для подготовки других моделей. Она позволяет Voicebox «учиться по разнообразным речевым данным без тщательной разметки этих вариаций». Без необходимости вручную размечать данные исследователи смогли обучить Voicebox по аудиокнигам общей продолжительностью всего 50 000 часов.

Уникальность Voicebox в том, что она может выполнять задачи, которым ее специально не учили. К примеру, использовать образец голоса длительностью две секунды для того, чтобы сгенерировать новый устный текст. Или для того, чтобы произнести написанный текст в другой стилистической манере, образец которой ей предоставили. И все это — на разных языках. Можно также «на лету» убирать лишние шумы — лай собак, звуки транспорта — и исправлять оговорки.

Вдобавок, она может нарезать из текста образцы речи, которые можно потом использовать для обучения других языковых моделей. Испытания показали, что такой метод не менее эффективен, чем обучение по аудиозаписям речи живых людей.

Весной NVIDIA представила ИИ-модель для превращения текста в видео VideoLDM, разработанную вместе с исследователями из Корнельского университета. Модель генерирует видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд, опираясь на текстовое описание.

* Деятельность компании запрещена на территории России.