Hitech logo

Кейсы

«Яндекс» разрабатывает нейросеть SpeechGPT, которая сможет понимать интонации устной речи

TODO:
Дарина Житова4 июня, 10:13

Яндекс разрабатывает мультимодальную модель SpeechGPT, которая сможет обрабатывать письменную и устную речь, и отвечать пользователям как текстом, так и голосом. Компания разместила на своём сайте вакансию и приглашает разработчиков присоединиться к команде проекта. Эксперты предполагают, что на рынок модель выйдет уже скоро, но будет уступать продуктам от OpenAI.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Нейросети «Яндекса» уже понимают устную речь, однако только потому, что сначала переводят её в письменную. Из-за этого теряются такие важные аспекты сообщения, как интонация и темп речи, поэтому модель не понимает эмоции говорящего. Кроме того, происходят задержки, модели нужно «подумать», прежде чем ответить на запрос пользователя. Мультимодальная большая языковая модель поможет исправить это.

В компании говорят, что при разработке постараются использовать «лучшее от 2 миров»: технологии обработки естественного языка, которые OpenAI использует в ChatGPT, и технологии распознавания речи, которые Яндекс применяет в «Алисе». Новую разработку планируют интегрировать во флагманский голосовой помощник.

Эксперты считают, что SpeechGPT представят уже в ближайшее время. Минимальный жизнеспособный продукт появится спустя несколько месяцев, вероятно, до конца 2024 года, а затем его будут постоянно дорабатывать и улучшать.

Не стоит ожидать от новой мультимодульной модели успехов GPT-4o: между Яндексом и OpenAI пропасть в количестве ресурсов, которые они могут потратить на выпуск продукта. У команды Альтмана есть миллиарды долларов и десятки тысяч передовых ускорителей. Однако ускорить «Алису» и научить её понимать интонации в Яндексе вполне смогут.