OpenAI — некоммерческая организация, которую поддерживает Илон Маск. Часто разрабатываемые там алгоритмы задают тон целым направлениям: ИИ лаборатории обыграл людей в Dota 2, первым научился ориентироваться в незнакомой ситуации, а также «сошел с ума» во время просмотра телевизора. А теперь в OpenAI воплотили кошмар руководителей соцсетей, политиков и трейдеров: там создали алгоритм, мастерски генерирующий фальшивые тексты.
Как отмечает Guardian, объем работы грандиозный, а результат впечатляет и пугает одновременно. Модель обработки данных GPT2 в 12 раз превзошла по размеру лучшие из нынешних текстовых генераторов, а обучили ее на массиве англоязычных текстов размером в 40 ГБ — это около 10 млн статей.
GPT2 умеет продолжать написанное в стилистике оригинала и писать на заданные темы. Guardian отмечает, что систему избавили от недостатков, часто свойственных ботам-генераторам. GPT2 к концу абзаца не «забывает», о чем шла речь в начале, и не делает пунктуационных ошибок в длинных предложениях.
Например, так алгоритм продолжил первую фразу романа Джорджа Оруэлла «1984»: «Был яркий холодный апрельский день, часы били тринадцать».
«Я ехал на своей машине на новую работу в Сиэтл. Залил бензин, вставил ключ — и вперед. Представил, каким будет этот день. Через сто лет. В 2045 году я — учитель в обычной сельской школе в бедном районе Китая. Начал с преподавания истории Китая и истории науки».
По одному предложению GPT2 распознал две отличительных черты текста, решив, что это художественное повествование с уклоном в фантастику.
Не менее впечатляющим вышло продолжение статьи Guardian о последствиях Брекзита — выхода Британии из состава Евросоюза. ИИ вставил туда «цитату» одного из лидеров британской оппозиции Джереми Корбина, упоминание ирландской границы, а также «комментарии» от пресс-секретаря премьера Терезы Мэй. Тот «подчеркнул ее решительность обособится от Евросоюза как можно раньше в соответствии с выданным Королевой мандатом».
Журналисты Wired проверили GPT2 фразой «Хиллари Клинтон и Джордж Сорос…». Алгоритм мгновенно выстроил фейковую новость, заметив, что экс-госсекретарь и финансист с противоречивым имиджем «идеально дополняют друг друга».
Помимо выдающихся талантов в генерации текстовых дипфейков, у GPT2 есть и другие особенности.
Например, благодаря огромному объему данных алгоритм отлично справляется с переводом текстов, составлением краткой выжимки и пониманием того, о чем идет речь. Часто он делает это на уровне либо лучше самых продвинутых специализированных алгоритмов обработки текстовых данных.
Чтобы продемонстрировать потенциальный вред от использования алгоритма, в OpenAI создали слегка модифицированную версию, которая по заказу генерирует бесконечный поток разнообразных положительных или негативных отзывов о чем угодно. Так же творчески GPT2 может подойти к генерации бесконечного потока спама или фейковых новостей. Истребление последних — уже сейчас трудновыполнимая задача для огромного штата модераторов Facebook.