Hitech logo

Искусственный интеллект

Ученые предупредили о возможном коллапсе генеративных моделей ИИ

TODO:
Георгий Голованов18 июня 2023 г., 13:52

Всего полгода назад мир узнал о ChatGPT, а сегодня многие ведущие компании мира либо уже начали использовать технологию генеративного ИИ в своей работе, либо разрабатывают продукты на ее основе. Однако прежде большие данные, которые скармливали таким моделям, как GPT, Stable Diffusion или Midjourney — книги, статьи, фотографии — были созданы человеком. С ростом числа ИИ появится все больше контента, сгенерированного машинами. Что произойдет, когда генеративные модели станут обучаться на материалах, созданных ИИ? Как оказалось, их неизбежно ждет вырождение.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Группа исследователей из Британии и Канады изучила эту проблему и опубликовала статью в журнале arXiv. Они пришли к выводу, что такая ситуация вызывает тревогу за технологию генеративного ИИ и его будущее: «Мы обнаружили, что использование сгенерированного моделями контента в обучении приведет к необратимым дефектам в будущем поколении моделей».

Сосредоточившись на проблеме распределения вероятностей в генеративных моделях типа «текст в текст» и «изображение в изображение», авторы пришли к выводу, что «обучение на основе данных, созданных другими моделями, вызовет коллапс моделей — процесс вырождения, при котором со временем модели забудут настоящее распределение данных. (…) Этот процесс неизбежен даже в случаях с почти идеальными условиями для долгосрочного обучения».

Постепенно ошибки в моделях будут накапливаться, и они станут воспринимать реальность все менее адекватно. «Мы удивились, когда увидели, как быстро произошел коллапс моделей: модели могут быстро забыть большинство оригинальных данных, на которых они обучались в самом начале», — сказал Илья Шумайлов, один из авторов статьи, в беседе с Venture Beat.

Другими словами, когда учебная модель ИИ получает больше сгенерированных ИИ данных, она становится постепенно все менее эффективной, совершает больше ошибок в ответах и создаваемом контенте, ее реакции теряют вариативность.

Он проиллюстрировал проблему гипотетическим сценарием, в котором модель была обучена на наборе данных из 100 котов — десять из них были с голубой шерстью, 90 — с желтой. Модель понимает, что желтые коты встречаются чаще, но также представляет голубых котов более желтоватыми, выдавая иногда результаты с зелеными котами, когда ее просят создать новые данные. Со временем оригинальная черта — голубой мех — выветривается в повторяющихся циклах, от голубого к зеленому, от зеленого к желтому. Это постепенное растворение и потеря минорных характеристик и есть коллапс модели. Чтобы предотвратить его, важно удостовериться в правильном распределении минорных групп в наборах данных, которые изображали бы отличительные черты верно с точек зрения количества и точности. Трудная задача, поскольку моделям сложно учиться на редких событиях.

«Мы собираемся наполнить интернет чушью, — сказал другой автор, Росс Андерсон из Университета Кембриджа и Университета Эдинбурга. — Это затруднит обучение новых моделей путем прочесывания интернета. Фирмы, которые уже сделали это, или которые контролируют крупномасштабный доступ к пользовательским интерфейсам, будут иметь преимущество».

Авторы предлагают пару решений этой проблемы, которые, правда, потребуют механизма массовой маркировки и серьезных усилий со стороны производителей контента или ИИ-компаний по дифференциации материалов, созданных человеком и машиной. Сейчас так никто не делает.

В мае чат-бот OpenAI ChatGPT был запрещен в Италии из-за нарушения защиты данных, что спровоцировало расследования и в других странах ЕС. Регуляторов беспокоят отказ компании раскрывать механизм обучения ИИ, недостоверные ответы и отсутствие возрастных фильтров. OpenAI удалось договориться с итальянскими властями, но это может быть только начало. В 2024 году в ЕС должен вступить в силу закон об искусственном интеллекте, который потребует раскрытия наборов обучающих данных. В этой связи эксперты ожидают, что многие компании, создающие ИИ-модели, станут уязвимы для судебных исков.