По данным издания The Information, OpenAI в последние месяцы объединила несколько инженерных, продуктовых и исследовательских команд вокруг одной инициативы. Ее цель — улучшить аудиомодели компании, которые, по оценке самих исследователей OpenAI, пока уступают текстовым моделям по точности и скорости работы.
В компании также отмечают, что голосовой интерфейс ChatGPT пока остается менее популярным, чем текстовый: большинство пользователей предпочитают печатать запросы. Новая аудиомодель, как ожидается, будет поддерживать более «человеческий» диалог — корректно реагировать на прерывания и вести беседу в реальном времени. OpenAI рассчитывает, что более естественное и быстрое аудиовзаимодействие сможет изменить пользовательские привычки и расширить применение ИИ в таких сферах, как автомобили и бытовые устройства. Эти возможности также должны лечь в основу первого аппаратного продукта OpenAI, выход которого, по предварительным оценкам, может состояться через год.
Сотрудники компании обсуждали разные форматы будущих устройств — от умных колонок до очков. Однако основной акцент делается именно на аудиоинтерфейсах без экрана. В перспективе OpenAI рассматривает создание целой линейки подобных устройств, которые будут работать скорее как персональные компаньоны, чем как традиционные гаджеты.
При этом предыдущие попытки создать массовые ИИ-гаджеты оказались во многом неудачными. Носимое устройство Humane AI Pin, на разработку которого были потрачены сотни миллионов долларов, не смогло завоевать аудиторию из-за ограниченного функционала и высокой цены. Другие проекты, такие как кулон Friend AI, вызвали скорее опасения по поводу конфиденциальности и постоянного прослушивания, чем интерес со стороны пользователей.
Между тем, конкуренты вроде Google, Meta (организация признана экстремистской и запрещена в РФ) и Amazon активно инвестируют в голосовые технологии. Meta, например, представила функцию для очков Ray-Ban, которая с помощью пяти микрофонов изолирует голос собеседника в шумных местах. По сути, устройство превращает владельца в «живой» направленный микрофон. Новый виток интереса к аудио объясняется тем, что современные языковые модели открывают гораздо больше возможностей, чем голосовые ассистенты прошлого поколения.
Развитием аппаратного направления OpenAI занимается бывший главный дизайнер Apple Джони Айв, чья компания io была приобретена OpenAI в мае за $6,5 млрд. Айв рассматривает устройства, ориентированные на звук, как способ снизить зависимость пользователей от экранов и переосмыслить подход к потребительской электронике.

