Hitech logo

Тренды

Маск: «Мы исчерпали почти все данные для обучения ИИ»

TODO:
Екатерина Шемякинская9 января, 17:51

Илон Маск вслед за другими экспертами заявил, что объем доступных данных для обучения ИИ практически исчерпан. Миллиардер подчеркнул необходимость перехода к использованию синтетических данных, которые уже применяют Microsoft и Google. Такие материалы, генерируемые самими моделями, помогают снизить затраты на разработку. Но в то же время этот подход может ухудшить креативность и усилить предвзятость ИИ.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

«Мы практически исчерпали совокупный объем человеческих знаний… в обучении ИИ. Это произошло в прошлом году», — сказал Маск во время беседы с председателем Stagwell Марком Пенном, трансляция которой велась в X.

Маск, владеющий ИИ-компанией xAI, повторил идеи, которые бывший главный научный сотрудник OpenAI Илья Суцкевер высказал на конференции NeurIPS в декабре. Суцкевер заявил, что индустрия ИИ достигла так называемого «пика данных», и предсказал, что из-за нехватки ресурсов для обучения методы разработки моделей придется изменить.

Маск видит решение проблемы в использовании синтетических данных, которые генерируют сами модели ИИ. Другие компании, включая технологических гигантов Microsoft, Meta (организация признана экстремистской и запрещена в РФ), OpenAI и Anthropic, уже используют их для обучения флагманских моделей ИИ. По оценкам Gartner, 60% информации, используемых для проектов ИИ и аналитики в 2024 году, были сгенерированы синтетическим путем.

Phi-4 от Microsoft обучалась как на реальных данных, так и на синтетических. То же самое относится и к моделям Gemma от Google. Anthropic использовала некоторое количество синтетических материалов для разработки одной из своих самых производительных систем — Claude 3.5 Sonnet. А Meta дорабатывала последнюю серию моделей Llama, используя сведения, сгенерированные ИИ.

Обучение с использованием синтетических данных дает и другие преимущества, например, снижение затрат. По заявлению ИИ-стартапа Writer, разработка их модели Palmyra X 004, основанной на искусственных данных, стоила всего $700 000, в то время как создание сопоставимой по размеру модели OpenAI оценивается в $4,6 млн.

Но есть и минусы. Исследования показывают, что использование синтетических данных приводит к «коллапсу модели», когда она становится менее «творческой» и более предвзятой, что серьезно сказывается на ее работе. Кроме того, модели используют обучающие данные для генерации синтетических. Следовательно, наличие предубеждений и ограничений в источниках приведет к аналогичным искажениям в результатах.