Для видео, где автомобиль проезжает по городскому пейзажу в стиле киберпанка, Google использовал подсказку «визг шин, рев двигателя, ангельская электронная музыка» для создания звука. Можно заметить, как звуковые эффекты совпадают с движением автомобиля. В другом примере создается подводный звуковой ландшафт с использованием подсказки «пульсирующие под водой медузы, морская жизнь, океан».
Пользователи могут добавлять текстовые подсказки, но DeepMind отмечает, что это необязательно. Кроме того, не нужно скрупулезно подбирать сгенерированное аудио к соответствующим сценам. Инструмент также может создавать неограниченное количество звуковых дорожек для видео, позволяя генерировать бесконечный поток вариантов аудиосопровождения.
Возможность генерировать саундтреки на основе видеоконтента может стать преимуществом инструмента DeepMind по сравнению с другими ИИ-решениями, например, от ElevenLabs. ElevenLabs использует только текстовые подсказки для создания аудио, тогда как инструмент DeepMind учитывает само видео. Это также может упростить процесс подбора аудио к видео, созданному с помощью искусственного интеллекта, например, Veo и Sora. Особенно это актуально для Sora, в которую планируется интегрировать поддержку звука.
DeepMind сообщает, что их инструмент обучался на видео, аудио и аннотациях, содержащих «подробные описания звуков и расшифровки разговорной речи». Это позволяет генератору синхронизировать звуковые события с визуальными сценами.
Инструмент не лишен недостатков. Например, DeepMind работает над улучшением синхронизации движения губ с диалогами (как видно из видео с пластилиновой семьей). Кроме того, компания отмечает, что качество видео влияет на работу системы — зернистое или искаженное изображение может привести к заметному снижению качества звука.
Инструмент DeepMind пока недоступен для широкого использования. Его еще должны проверить на безопасность и протестировать. Когда инструмент все же станет доступен, его аудиовыход будет содержать водяной знак Google SynthID, сигнализирующий о том, что звук создан искусственным интеллектом.