Hitech logo

искусственный интеллект

ChatGPT получил возможность синтеза речи и понимания изображений

TODO:
Георгий Голованов26 сентября 2023 г., 11:40

OpenAI анонсировала важное обновление для ChatGPT — теперь генеративные модели GPT-3,5 и GPT-4 могут анализировать изображения и реагировать на них так же, как на текстовое общение. Вдобавок, мобильное приложение ChatGPT добавит функцию синтеза речи, которая вместе с уже имеющейся функцией распознавания речи обеспечит возможность вести полноценные устные беседы с чатботом.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

OpenAI планирует предоставить все эти функции ChatGPT для пользователей подписки Plus и Enterprise «в ближайшие две недели». Синтез речи будет доступен только для устройств с iOS и Android, а распознавание изображений — в мобильных приложениях и на веб-сайтах, сообщает Ars Technica.

Функция распознавания изображений позволит пользователям загружать одно или несколько изображений в диалог с моделями GPT-3,5 или GPT-4. Как объяснили авторы промо-ролика, ее можно использовать в различных обстоятельствах, от поиска рецептов ужина через фотографию содержимого холодильника до починки сломавшейся бытовой техники. Также пользователи смогут выделять отдельные части изображений, чтобы фокусировать внимание чатбота.

Разработчики не пояснили, как работает эта многомодельная функция, но на основе информации о других многомодальных ИИ можно предположить, что модель кодирует текст и изображение в общее пространство, которое позволяет обрабатывать различные типы данных одной нейронной сетью.

Что касается голосового синтеза, которая позволяет вести устные беседы с ChatGPT, в ее основе лежит «новая модель преобразования текста в речь». Пользователь может выбрать один из вариантов голосов, которым будет говорить чатбот. Все они были созданы при участии профессиональных актеров озвучивания.

Недавно OpenAI анонсировала третью версию своей платформы визуального искусства с генеративным искусственным интеллектом DALL-E. Теперь можно использовать ChatGPT для создания подсказок. DALL-E 3 визуализирует изображения, следуя сложным описаниям и обрабатывая генерацию текста в изображении (например, меток и знаков), что вызывало сложности у более ранних моделей.