Hitech logo

Идеи

Речевая технология Sonantic генерирует живые эмоции с помощью алгоритмов

TODO:
Степан Икаев7 марта 2021 г., 12:26

Британский стартап Sonantic объявил о публичном запуске платформы для перевода текста в речь. Технология Sonantic использует ИИ для имитации эмоциональной глубины — алгоритмы передают сложные человеческие эмоции, включая страх, печаль, радость и удивление. За четыре года работы в скрытом режиме стартап обзавелся длинным списком партнеров, который в большинстве случаев состоит из студий, разрабатывающих видеоигры. Разработчики делают виртуальных персонажей более живыми и снижают стоимость разработки дорогостоящих AAA-проектов.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Sonantic сотрудничает с опытными актерами озвучки для оцифровки их голосов. Используя полученные данные, стартап постепенно создает библиотеку голосовых моделей и предлагает клиенту выбрать один из имеющихся или разработать принципиально новый голос с привлечением актеров. Когда голосовая модель готова, сценарий игрового проекта загружается на платформу, а аудиокоманда клиента объясняет, на чем стоит расставить акценты с точки зрения звука, темпа и эмоций. Sonantic сохраняет эти требования и передает работу в руки ИИ — алгоритмы на базе машинного обучения быстро синтезирует готовые аудиодорожки.

При этом Sonantic одновременно использует два подхода к своим технологиям. В первом случае студия-разработчик отдает всю озвучку на аутсорс — сгенерированные голоса просто заполнят диалоги неигровых персонажей. А во втором — более сложном сценарии — ИИ помогает партнерам Sonantic на ранних этапах разработки. Авторы игры могут прослушать диалоги и сразу изменить их, не прибегая к услугам профессиональных актеров.

«Эта технология не предназначена для полной замены актеров. На создание ААА-игр может уйти до 10 лет. Но обычно они требуют работы актеров еще на самых ранних стадиях, потому что игры постоянно меняются и развиваются. Поэтому они используют преобразование текста в речь, которое было отраслевым стандартом в течение последних нескольких десятилетий. А мы предлагаем способ, который помогает актерам озвучки работать как вживую, так и виртуально», — объяснила VentureBeat соучредитель Sonantic Зина Куреши.

По словам Куреши, ключевая задача Sonantic — оптимизированный рабочий процесс для студии-разработчика. Командам больше не нужно вызывать актеров для пересъемок или перезаписывать небольшие фрагменты. В качестве примера своих возможностей, Sonantic приводит главного партнера — игровую студию Obsidian Entertainment. Последняя пользуется услугами стартапа более двух лет и уже реализовала на базе речевой технологии один проект — The Outer Worlds. В игре Obsidian вся диалоговая система была построена в сотрудничестве с Sonantic — диалоги ведутся от первого лица, а большая часть эмоций неигровых персонажей сгенерирована с помощью алгоритмов.

«Технология передачи голоса Sonantic не похожа ни на что, что я когда-либо видел за всю свою карьеру. Работая над разработкой игры, мы отправляли сценарий через API Sonantic — и то, что мы получали в ответ, — это уже был не просто роботизированный диалог: это человеческий диалог. Эта технология может расширить возможности нашего творческого процесса и в конечном итоге поможет нам рассказывать наши истории», — прокомментировал запуск платформы звуковой директор Obsidian Entertainment Джастин Белл.

Стартап также отмечает, что игровые и киностудии — не единственные потенциальные клиенты Sonantic. Платформа закладывает основу для нового вида бизнеса, в котором актеры озвучки превращают свои голоса в масштабируемый актив. Sonantic дает актерам возможность получать пассивный доход каждый раз, когда их голосовая модель используется в новом проекте. При этом от владельца голоса ничего не требуется — все эмоции, выражения и текст за актера генерирует искусственный интеллект.