Hitech logo

Кейсы

Новый инструмент DeepMind создает саундтрек из видео и текста

TODO:
Екатерина Смирнова19 июня, 11:33

Google DeepMind представила новый инструмент искусственного интеллекта для создания саундтреков к видео. Сервис использует не только текстовые подсказки, но и сам видеоряд, чтобы создать музыку, звуковые эффекты и даже диалоги, соответствующие персонажам и настроению. Генератор способен синхронизировать происходящее в ролике со звуком. Но пока разработка недоступна для широкого использования.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Для видео, где автомобиль проезжает по городскому пейзажу в стиле киберпанка, Google использовал подсказку «визг шин, рев двигателя, ангельская электронная музыка» для создания звука. Можно заметить, как звуковые эффекты совпадают с движением автомобиля. В другом примере создается подводный звуковой ландшафт с использованием подсказки «пульсирующие под водой медузы, морская жизнь, океан».

Пользователи могут добавлять текстовые подсказки, но DeepMind отмечает, что это необязательно. Кроме того, не нужно скрупулезно подбирать сгенерированное аудио к соответствующим сценам. Инструмент также может создавать неограниченное количество звуковых дорожек для видео, позволяя генерировать бесконечный поток вариантов аудиосопровождения.

Возможность генерировать саундтреки на основе видеоконтента может стать преимуществом инструмента DeepMind по сравнению с другими ИИ-решениями, например, от ElevenLabs. ElevenLabs использует только текстовые подсказки для создания аудио, тогда как инструмент DeepMind учитывает само видео. Это также может упростить процесс подбора аудио к видео, созданному с помощью искусственного интеллекта, например, Veo и Sora. Особенно это актуально для Sora, в которую планируется интегрировать поддержку звука.

DeepMind сообщает, что их инструмент обучался на видео, аудио и аннотациях, содержащих «подробные описания звуков и расшифровки разговорной речи». Это позволяет генератору синхронизировать звуковые события с визуальными сценами.

Инструмент не лишен недостатков. Например, DeepMind работает над улучшением синхронизации движения губ с диалогами (как видно из видео с пластилиновой семьей). Кроме того, компания отмечает, что качество видео влияет на работу системы — зернистое или искаженное изображение может привести к заметному снижению качества звука.

Инструмент DeepMind пока недоступен для широкого использования. Его еще должны проверить на безопасность и протестировать. Когда инструмент все же станет доступен, его аудиовыход будет содержать водяной знак Google SynthID, сигнализирующий о том, что звук создан искусственным интеллектом.