Нейросети «Яндекса» уже понимают устную речь, однако только потому, что сначала переводят её в письменную. Из-за этого теряются такие важные аспекты сообщения, как интонация и темп речи, поэтому модель не понимает эмоции говорящего. Кроме того, происходят задержки, модели нужно «подумать», прежде чем ответить на запрос пользователя. Мультимодальная большая языковая модель поможет исправить это.
В компании говорят, что при разработке постараются использовать «лучшее от 2 миров»: технологии обработки естественного языка, которые OpenAI использует в ChatGPT, и технологии распознавания речи, которые Яндекс применяет в «Алисе». Новую разработку планируют интегрировать во флагманский голосовой помощник.
Эксперты считают, что SpeechGPT представят уже в ближайшее время. Минимальный жизнеспособный продукт появится спустя несколько месяцев, вероятно, до конца 2024 года, а затем его будут постоянно дорабатывать и улучшать.
Не стоит ожидать от новой мультимодульной модели успехов GPT-4o: между Яндексом и OpenAI пропасть в количестве ресурсов, которые они могут потратить на выпуск продукта. У команды Альтмана есть миллиарды долларов и десятки тысяч передовых ускорителей. Однако ускорить «Алису» и научить её понимать интонации в Яндексе вполне смогут.