По заключению OpenAI, модель GPT-4o несет среднюю угрозу

Тренды

Екатерина Шемякинская9 августа 2024 г., 10:23

Екатерина Шемякинская9 августа 2024 г., 10:23

Компания OpenAI выпустила системную карту GPT-4o — исследовательский документ, в котором описаны меры безопасности и оценки рисков, проведенные перед выпуском модели. Проверка безопасности GPT-4o основывалась на четырех категориях, и только в категории манипулирования был выявлен средний риск. Тексты, сгенерированные моделью, в некоторых случаях оказывались более убедительными, чем человеческие. Документ был выпущен на фоне растущей критики стандартов безопасности компании и призывов к большей прозрачности. Хотя GPT-4o прошла проверку как внутренними командами, так и внешними экспертами, основная ответственность за оценку рисков остается на самой OpenAI.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Перед публичным запуском в мае этого года, модель GPT-4o прошла тщательную проверку безопасности. Выявлением потенциальных уязвимостей занималась как внутренняя команда, так и независимые эксперты по безопасности — компании Model Evaluation and Threat Research (METR) и Apollo Research. В ходе тестирования особое внимание уделялось рискам, связанным с возможностью модели генерировать несанкционированные голосовые копии, порнографический или жестокий контент, а также копировать защищенные авторским правом аудиозаписи. Результаты этой комплексной оценки теперь доступны публике.

Почему США, Китаю и России важно первыми установить на Луне атомный реактор

Согласно собственной оценке OpenAI, уровень риска GPT-4o считается средним. Это определение основано на анализе четырех основных категорий: кибербезопасность, биологические угрозы, манипулирование и автономность модели. Все категории, за исключением манипулирования, были оценены как низкорисковые.

Исследователи обнаружили, что в некоторых случаях тексты, сгенерированные GPT-4o, могут быть более убедительными, чем человеческие. Однако в целом, модель не продемонстрировала значительного превосходства в этой области.

Это не первая системная карта, выпущенная OpenAI. Аналогичные тестирования и исследования проводились для GPT-4, GPT-4 с функцией зрения и DALL-E 3. Однако выпуск системной карты GPT-4o происходит в ключевой момент. Компания сталкивается с постоянной критикой стандартов безопасности как от своих сотрудников, так и от государственных сенаторов.

Незадолго до выхода технической документации GPT-4o стало известно, что сенатор Элизабет Уоррен и конгрессвумен Лори Трахан направили открытое письмо в компанию OpenAI. В нем законодатели потребовали предоставить информацию о том, как компания реагирует на сообщения сотрудников о проблемах безопасности, а также о процедурах оценки рисков. Авторы письма сослались на ряд публичных инцидентов, свидетельствующих о недостаточном внимании компании к вопросам безопасности. Речь идет об отстранении от должности генерального директора Сэма Альтмана и уходе руководителей по безопасности, которые выразили обеспокоенность приоритетами компании.

Выпуск мощной мультимодальной модели накануне президентских выборов в США вызывает серьезные опасения. Существует вероятность того, что модель может быть использована для манипулирования общественным мнением или для других злонамеренных целей. OpenAI заявляет, что проводит тестирования в реальных условиях для предотвращения подобных случаев.

OpenAI все чаще призывают к большей прозрачности, особенно в отношении обучающих данных и процедур обеспечения безопасности своих моделей. В Калифорнии разрабатывается законопроект, который обяжет компании проводить независимые оценки рисков перед выпуском новых ИИ-моделей. Если этот законопроект будет принят, передовые модели OpenAI должны будут пройти обязательную государственную проверку перед выпуском для широкой публики. Однако основной вывод из документации GPT-4o заключается в том, что, несмотря на привлечение внешних экспертов, компания в значительной степени полагается на собственную оценку безопасности.

Также по теме

Тренды

Зачем Питерский Политех запустил командный отбор в магистратуру вместо вступительных экзаменов

Тренды

Китай планирует развернуть 180 ГВт новых накопителей энергии к 2027 году

Тренды

Tesla отказалась от масштабного внедрения гигакастинга в производственный процесс

Тренды

Китай запрещает детям играть в видеоигры после 10 вечера

Новости СМИ2