Hitech logo

Тренды

OpenAI нелегально транскрибировала 1 млн часов видео с Ютуба для обучения GPT-4

TODO:
Дарина Житова8 апреля, 10:10

Недавно мировые СМИ писали, что разработчики ИИ столкнулись с дефицитом данных для обучения. Например, при условии использования всех доступных текстов в интернете для GPT-5 не хватит около 10-20 триллионов токенов. Теперь оказалось, что наборы обучающих данных у OpenAI закончились ещё в 2021 году. Компания использовала вместо них расшифровку больше 1 миллиона часов видео с YouTube, хотя это нарушало авторские права создателей контента.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

The New York Times сообщает, что с дефицитом данных OpenAI столкнулась раньше, чем другие компании — ещё во время обучения GPT-4. Тогда разработчики создали модель расшифровки аудио Whisper, с помощью которой перевели в текст более 1 миллиона часов подкастов, роликов и лекций на YouTube. Компания знала, что это сомнительно с юридической точки зрения, но считала такое использование добросовестным. Президент OpenAI Грег Брокман лично участвовал в сборе видео.

Также есть сведения о том, что OpenAI использовала контент на YouTube и для обучения нашумевшего видеогенератора Sora. Свои подозрения на этот счёт высказал генеральный директор YouTube Нил Мохан.

В OpenAI на запросы журналистов отвечают достаточно уклончиво: не подтверждают и не отрицают использование видео со сторонней площадки, только говорят, что все было в рамках закона и по согласию авторов. Представитель компании Линдси Хелд сообщила The Verge по электронной почте, что разработчики ChatGPT используют многочисленные источники, включая общедоступные данные и партнерские отношения для получения закрытых данных. Они также рассматривают возможность создавать собственные синтетические данные.

Представитель Google Мэтт Брайант сказал, что сообщении о незаконном использовании видеороликов в OpenAI необоснованны. Google тщательно следит за использованием YouTube и запрещает несанкционированные загрузку и расшифровку видео. По словам источников The New York Times, в Google также собирали стенограммы с YouTube. На это Брайант ответил, что компания обучала свои модели на некоторых видео YouTube в соответствии соглашениями с авторами контента на платформе.

Meta (организация признана экстремистской и запрещена в РФ) также столкнулась с нехваткой обучающих данных и обсуждала возможность использования защищённых авторским правом источников, утверждают информаторы The New York Times. Компания просмотрела почти доступные англоязычные книги, эссе, стихотворения и новостные статьи в Интернете и рассматривала такие меры, как оплата книжных лицензий или даже прямая покупка крупного издательства. Изменения в политике конфиденциальности, которые она внесла после скандала с Cambridge Analytica, также ограничивают её в сборе данных.

Сейчас OpenAI, Google и Meta изучают возможность обучения моделей на синтетических данных — это наилучшие тексты, написанные самим ИИ, которые тщательно отбирают и проверяют на связность, логику повествования и отсутствие грамматических и фактологических ошибок.