«Apoploe vesrreaitais» — это птицы, — написал в Твиттере Джаннис Дарас, один из авторов нейросети DALLE-2. — «Contarra ccetnxniams luryca tanniounons» значит насекомые или вредители. Фраза «Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons» даст изображение птиц, поедающих насекомых».
Заставив нейросеть создать изображения, содержащие текст, а затем загрузив полученный бессмысленный набор букв обратно в ИИ, исследователи пришли к выводу, что для DALLE-2 «vicootes» — это овощи, а «wa ch zod rea» — морские животные, которых ест кит.
Если эти наблюдения верны, то возникает ряд серьезных вопросов относительно безопасности и возможности интерпретации такого рода моделей ИИ. Впрочем, говорить о «секретном языке ИИ» пока что рано. Скорее, мы имеем дело с собственным лексиконом, хотя и это не точно.
Прежде всего, пишет Science Alert, на этом этапе очень трудно подтвердить любые заявления о работе DALLE-2 или других крупных языковых моделей, поскольку доступ к ним имеют лишь единицы исследователей и пользователей. Любые сгенеренные ИИ картинки, которые появляются в сети, нужно воспринимать с долей сомнения, поскольку они были выбраны из массы других, не таких удачных.
Возможно, DALLE-2 воспользовалась для составления своего словаря другими языками. Например, apoploe похоже на латинское apodidae, обозначающее семейство птиц. В конце концов, нейросеть обучалась на большом объеме данных из интернета, где много не английских слов. Похожие вещи уже случались в прошлом, когда ИИ случайно учился писать программный код.
Эту гипотезу подтверждает тот факт, что языковые модели читают текст не так, как люди. Они разбивают входящий текст на «токены», прежде чем обработать. Один из пользователей DALLE-2 провел следующий опыт: он взял два названия семейства рыб на латыни, составил из них два бессмысленных слова и велел нейросети создать на их основе изображение. ИИ послушно выдало картинки с рыбами.
Тем не менее, что именно происходит внутри DALLE-2, доподлинно неизвестно. А разобраться важно, поскольку появление «секретного языка» может оказаться примером нарушения заданного поведения системы. Если ИИ интерпретирует бессмыслицу незапланированным образом, он может интерпретировать таким же образом и слова, обладающие смыслом.
Лондонский стартап CausaLens разработал платформу «без кода» для плодотворного сотрудничества между людьми и алгоритмами. Компания называет себя первооткрывателем «причинно-следственного ИИ» — модели, которая рассуждает об окружающем мире и своей работе так же, как это делают люди. ИИ от CausaLens воспроизводит причину и следствие, а затем объясняет свои решения.