Дефицит качественных текстов может затормозить развитие отрасли уже в ближайшие 2 года. Теперь с кризисом столкнулись даже однозначные лидеры рынка, такие как OpenAI и Anthropic. GPT-5 планируют обучать на транскриптах публичных выступлений и подкастов на YouTube — это способ хоть как-то получить качественные данные.
На первый взгляд кажется, что проблему легко решить: достаточно нанять тех, кто пишет качественные тексты, и попросить их производить контент специально для обучения ИИ. Например, заключить контракт с онлайн-изданием или электронной библиотекой. Однако на практике всё не так просто.
Пабло Вильялобос, ученый из Исследовательского института Epoch, говорит, что для обучения того же GPT-5 понадобится 60-100 триллионов токенов. Не совсем понятно, равен токен в этом случае слову или только его составной части. Но даже по самым скромным ожиданиям, понадобятся 240-400 миллиардов страниц А4 и около 1 миллиарда книг. Британская библиотека — самое большое книгохранилище в мире с фондом хранения в 170 млн книг. Чтобы соответствовать аппетитам передовых ИИ, нужно 5-8 Британских библиотек, причем материалы в них должны быть уникальными. По словам Вильябоса, если обучать GPT-5 на подходящих текстах в интернете, ему не хватит 10-20 триллионов токенов.
Ещё можно обучать ИИ на личных переписках, однако широкая общественность не хочет отдавать свои данные разработчикам. Илон Маск и Цукерберг обучают свои модели на контенте, который создают пользователи их соцсетей, однако он не всегда связный и качественный.
Пока Пабло Вильябос прогнозирует, что угроза нехватки данных в 2026 году будет уже 90%, стартап DatologyAI пытается решить эту проблему другим подходом. В нем БЯМ обучают методом «школьной программы» — предоставляют информацию в определенном порядке, от простого к сложному, чтобы ИИ сам нашёл в ней связи и сделал выводы. По словам Ари Морксоса, основателя стартапа, это позволяет повысить эффективность модели, уменьшив объём входящих данных вдвое. Однако пока это не подтвердили в других исследованиях.
И Google, и OpenAI думают над созданием рынка данных для обучения нейросетей. На нем будут определять, насколько определенная информация полезна для конкретной модели, и какая цена будет справедливой. Возможно, возникнет целая новая сфера экономики, в которой будут трудится производители контента для обучения ИИ. Пока дальше планов работа над рынком не заходит.
OpenAI и Anthropic также начали эксперименты с «высококачественными синтетическими данными». Это наилучшие тексты, созданные самими нейросетями. Здесь разработчикам нужно быть предельно осторожными — некоторые испытания показали, что нейросети теряют производительность и деградируют от таких учебных материалов.