В OpenAI пояснили, что создание полезных моделей ИИ без использования материалов, защищенных авторским правом, невозможно. Представители проекта также напомнили, что поиск данных веб-сканерами был стандартной практикой в течение десятилетий, однако критиковать его начали только сейчас, после коммерческого успеха некоторых продуктов.
Компания заявляет, что разрабатывает новый стандарт сотрудничества с авторами, владельцами контента и регуляторами. Ожидается, что Media Manager обеспечит новые опции и возможности для управления обучением моделей на авторском контенте.
OpenAI ранее предоставила возможность авторам «отключиться» от использования их контента в обучении моделей. Компания также внедрила возможность для владельцев сайтов управлять доступом к своему контенту через robots.txt и заключила соглашения о лицензировании контента с крупными организациями, включая СМИ, библиотеки изображений и сайты вроде Stack Overflow.
Тем не менее, некоторые эксперты считают, что OpenAI делает недостаточно. Нынешний функционал «отключения» требует загружать каждое изображение отдельно с его описанием, что делает массовое исключение контента из базы обучающих данных почти невозможным.
Другие компании также работают над универсальными инструментами для защиты данных от использования в обучении ИИ. Например, стартап Spawning AI предлагает базу данных для регистрации авторских работ, а проекты Steg.AI и Imatag разрабатывают незаметные для глаза водяные знаки, чтобы защитить изображения.