The New York Times сообщает, что с дефицитом данных OpenAI столкнулась раньше, чем другие компании — ещё во время обучения GPT-4. Тогда разработчики создали модель расшифровки аудио Whisper, с помощью которой перевели в текст более 1 миллиона часов подкастов, роликов и лекций на YouTube. Компания знала, что это сомнительно с юридической точки зрения, но считала такое использование добросовестным. Президент OpenAI Грег Брокман лично участвовал в сборе видео.
Также есть сведения о том, что OpenAI использовала контент на YouTube и для обучения нашумевшего видеогенератора Sora. Свои подозрения на этот счёт высказал генеральный директор YouTube Нил Мохан.
В OpenAI на запросы журналистов отвечают достаточно уклончиво: не подтверждают и не отрицают использование видео со сторонней площадки, только говорят, что все было в рамках закона и по согласию авторов. Представитель компании Линдси Хелд сообщила The Verge по электронной почте, что разработчики ChatGPT используют многочисленные источники, включая общедоступные данные и партнерские отношения для получения закрытых данных. Они также рассматривают возможность создавать собственные синтетические данные.
Представитель Google Мэтт Брайант сказал, что сообщении о незаконном использовании видеороликов в OpenAI необоснованны. Google тщательно следит за использованием YouTube и запрещает несанкционированные загрузку и расшифровку видео. По словам источников The New York Times, в Google также собирали стенограммы с YouTube. На это Брайант ответил, что компания обучала свои модели на некоторых видео YouTube в соответствии соглашениями с авторами контента на платформе.
Meta (организация признана экстремистской и запрещена в РФ) также столкнулась с нехваткой обучающих данных и обсуждала возможность использования защищённых авторским правом источников, утверждают информаторы The New York Times. Компания просмотрела почти доступные англоязычные книги, эссе, стихотворения и новостные статьи в Интернете и рассматривала такие меры, как оплата книжных лицензий или даже прямая покупка крупного издательства. Изменения в политике конфиденциальности, которые она внесла после скандала с Cambridge Analytica, также ограничивают её в сборе данных.
Сейчас OpenAI, Google и Meta изучают возможность обучения моделей на синтетических данных — это наилучшие тексты, написанные самим ИИ, которые тщательно отбирают и проверяют на связность, логику повествования и отсутствие грамматических и фактологических ошибок.