«Все эти модели стали довольно сложными. Мы также сталкиваемся со множеством ограничений и трудных решений о том, как распределить наши вычислительные ресурсы между множеством отличных идей», — написал он в ответ на вопрос о том, почему разработка следующих моделей ИИ от OpenAI занимает так много времени.
Источники сообщают, что OpenAI испытывает трудности с обеспечением достаточной вычислительной инфраструктуры для запуска и обучения своих генеративных моделей. На этой неделе Reuters сообщило, что OpenAI уже несколько месяцев работает с Broadcom над созданием чипа для искусственного интеллекта, который может появиться уже в 2026 году.
В апреле OpenAI показала, как приложение ChatGPT на смартфоне может реагировать на визуальные сигналы, например, на одежду человека, попавшего в кадр. Но, как отметил Альтман, функция обработки изображений для режима расширенного голосового общения ChatGPT пока не может быть реализована из-за ограниченности вычислительных ресурсов. Согласно Fortune, демонстрация была проведена в спешке, чтобы переключить внимание общественности с конференции разработчиков Google I/O, которая проходила параллельно. Многие сотрудники OpenAI выражали сомнения в готовности GPT-4o к презентации. Запуск голосового режима Advanced Voice Mode в итоге был отложен на несколько месяцев.
Альтман сообщил, что следующая крупная версия генератора изображений OpenAI, DALL-E, пока не имеет конкретных сроков выхода. Разработка инструмента для генерации видео, Sora, была приостановлена из-за необходимости «усовершенствовать модель, обеспечить безопасность, предотвратить подражание и решить другие проблемы, а также масштабировать вычислительные ресурсы». Согласно изданию The Information, Sora столкнулась с техническими трудностями, что ставит ее в невыгодное положение по сравнению с аналогичными системами от Luma, Runway и других компаний. Первоначальная версия Sora, представленная в феврале, требовала более 10 минут обработки для создания видеоролика длительностью 1 минута. В октябре один из соруководителей Sora Тим Брукс ушел в Google.
Альтман допустил возможность появления контента для взрослых в ChatGPT в будущем. «Мы полностью верим в то, что к взрослым пользователям нужно относиться как к взрослым», — написал он. При этом глава OpenAI отметил, что основное внимание сейчас уделяется развитию серии моделей рассуждения o1. На недавней конференции DevDay в Лондоне компания продемонстрировала первые результаты работы над интеграцией в модели o1 функции распознавания изображений.
«У нас есть несколько очень хороших релизов, которые выйдут в этом году. Но ничего, что мы собираемся назвать GPT-5», — подытожил Альтман.