Logo
Cover

DeepMind объявила о создании одной из самых впечатляющих языковых моделей, радикально отличающихся от всего, что было создано до сих пор другими группами исследователей. Она имеет всего 7 млрд параметров, что в десятки раз меньше, чем у конкурентов, но быстрее их в обучении в 25 раз, сообщает Technology Review. При этом ее использование примерно на столько же дешевле. Примечательно, что в модели сразу заложено 7 языков, в числе которых русский.

В течение двух лет после того, как OpenAI выпустила языковую модель GPT-3, большинство ведущих ИИ-лабораторий мира — Google, Facebook, Microsoft, а также несколько крупнейших китайских компаний — разработали свои системы генерации текста. Большие языковые модели стали ведущим трендом в ИИ. До недавнего времени DeepMind, дочернее предприятие Alphabet, прославившееся алгоритмами, побеждающими людей в играх, держалось от него в стороне.

Но, в конце концов, и DeepMind выпустила свою языковую модель, сделав ее самой эффективной, быстрой и прозрачной на рынке. Ее ключевая особенность, предопределившая все плюсы, в том, что модель работает не как черный ящик, в котором есть все необходимое для генерации текста, а использует внешнюю памятью в форме обширной базы данных, содержащей отрывки самых разных текстов, которые используются при работе как шпаргалка.

Авторы назвали модель RETRO (от Retrieval-Enhanced Transformer), и по производительности она не уступает нейросетям в 25 раз большего размера. Это значит, что на обучение будет потрачено меньше времени и средств, а анализировать то, чему научилась ИИ, станет легче — это поможет избавиться от пресловутых предвзятости и токсичности.

Языковые модели пишут тексты, предсказывая следующее слово в предложении или фразе. Чем больше модель, тем больше информации о слове она может выучить в ходе обучения, что делает прогноз более точным. У GPT-3 свыше 175 млрд параметров, у модели Megatron (Microsoft) — 530 млрд. Такие объемы вычислительной мощности доступны только самым богатым организациям.

Разработчики RETRO идут по пути сокращения расходов на обучение языковой модели. Они натаскали ее на новостных сайтах, статьях из Википедии, книгах и постах из GitHub, написанных на десяти языках: английском, испанском, немецком, французском, русском, китайском, суахили и урду. У RETRO всего 7 млрд параметров, зато есть база данных на 2 трлн фраз и предложений. Которые обучаются параллельно, то есть быстрее.

Когда RETRO генерирует текст, она ищет в базе совпадения. Это повышает точность прогноза. Использование внешних ресурсов позволяют добиться большего с меньшими затратами. Идея не новая, но впервые результаты такого подхода оказались на уровне лучших из современных языковых моделей.

Кроме того, модель RETRO способна справиться с проблемой предвзятости, дезинформации и «риторики ненависти». Проанализировав базу данных, проще понять, откуда ИИ взял конкретную информацию и отфильтровать ее. Правда, это пока теория: DeepMind еще не проверяла, как это работает.

Еще одно преимущество RETRO — базу данных можно обновлять без переобучения нейросети. Это значит, что добавлять новую информацию и удалять устаревшую можно будет быстро.

Совсем недавно ученые в сотрудничестве с DeepMind показали, что их ИИ демонстрирует зачатки универсального ИИ. Одна и та же модель ИИ смогла найти и показать сложные корреляции в одной из гипотез теории узлов из абстрактной математики, а затем показала, что детально разбирается в том, как сворачиваются белковые последовательности и как ими можно управлять.