Hitech logo

Кейсы

Новая ИИ-модель от Nvidia синтезирует звуки, которых никогда не существовало

TODO:
Екатерина Смирнова26 ноября, 16:28

Nvidia представила Fugatto — музыкальный редактор на основе искусственного интеллекта, способный создавать звуки и композиции, которые ранее никто не слышал. Это может быть мяукающая труба или саксофон, звучащий как собака. Инструмент использует текстовые и аудио-описания для генерации музыки, синтеза необычных звуков, трансформации голоса и редактирования мелодий. Fugatto обучен на наборе данных из 20 млн аудиообразцов, обработанных с применением системы ComposableART. Эта технология позволяет, комбинируя характеристики разных звуков, создавать новые. Nvidia уверена, что Fugatto станет полезным инструментом для музыкантов и аудиохудожников, открывая новые горизонты для творчества.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Fugatto создает музыкальные композиции на основе необычных запросов. Так, можно попросить систему сгенерировать звучание саксофона, имитирующего лай собаки, а затем плавно переходящего в электронную музыку. Также система способна генерировать совершенно новые звуки, основанные на подробных описаниях, например, «глубокий гул баса, чередующийся с высокими цифровыми писками, напоминающими звуки пробуждающейся машины». Инструмент трансформирует звучание человеческого голоса, изменяя акцент или придавая ему различные эмоциональные оттенки, например, гнев или спокойствие. Кроме того, Fugatto позволяет редактировать музыкальные композиции: выделять вокальные партии, добавлять новые инструменты и даже изменять мелодию, заменив, например, фортепиано на оперное соло.

Это стало возможным благодаря особому подходу к обучению модели. Исследователи Nvidia отметили, что создать набор данных для тренировки нейросети, которая могла бы связывать между собой звуки и слова, сложно. Обычно нейросети сами учатся понимать текстовые инструкции, но когда речь идет о звуках, им нужна более точная подсказка. Чтобы решить эту проблему, ученые использовали специальную программу (скрипт на языке Python), которая генерировала большое количество инструкций для создания разных звуковых образов. Эти описания, включающие как абсолютные характеристики («синтезировать грустный голос»), так и относительные («увеличить грусть в голосе»), использовались для составления набора данных.

Большинство общедоступных аудиозаписей, которые использовались для обучения Fugatto, не содержат подробной информации о том, какие эмоции в них заложены или как звучит голос. Поэтому ученые разработали способ автоматически описывать звуки словами.

Например, они могли охарактеризовать звук как «веселый», «грустный» или «громкий». Кроме того, использовались специальные инструменты, чтобы извлечь из аудио числовые характеристики, которые помогают понять, как оно устроено.

После обработки обширной коллекции открытых аудиоданных исследователи сформировали детально аннотированный набор данных, включающий 20 млн отдельных аудиообразцов общей продолжительностью более 50 000 часов. На основе этого набора с использованием 32 тензорных ядер Nvidia была обучена модель с 2,5 млрд параметров. ИИ продемонстрировал высокую точность в тестах качества звука.

В Fugatto также интегрирована система ComposableART. Она позволяет, получив текстовое или аудио описание, создавать новые звуки путем комбинирования различных характеристик, извлеченных из обучающих данных.

По сути, ComposableART генерирует звуки, не встречавшиеся в обучающей выборке, поскольку сочетает несочетаемое. К примеру, звучание скрипки смешивается со смехом ребенка, а шум дождя — с банджо.

Модель рассматривает каждую отдельную аудиохарактеристику как непрерывный спектр, а не как дискретное значение. Так, при создании звукового образа, совмещающего звучание акустической гитары и журчащей воды, конечный результат будет зависеть от того, какая из этих характеристик будет преобладать в «смеси», создаваемой Fugatto.

Nvidia считает, что инструмент пригодится в разных сферах — от создания музыки до разработки новых звуковых эффектов для игр. Разработчики подчеркивают, что модель рассматривается не как замена музыкантов, а как новый инструмент для аудиохудожников. Правда, пока Fugatto не доступна для публичного тестирования.