Алгоритм научился искать новые знания в миллионах научных статей
Logo
Cover

Не обладая базовыми знаниями о материаловедении, искусственный интеллект Word2vec разобрался в значении терминов и предсказал появление новых материалов. Исследователи уверены, что такие алгоритмы серьезно ускорят развитие науки.

Современные алгоритмы могут диагностировать болезни лучше врачей и обыгрывать чемпионов по компьютерным играм. Однако способен ли искусственный интеллект совершить научное открытие? Исследователи из Национальной лаборатории имени Лоуренса в Беркли уверены, что да. Они убедительно продемонстрировали, что специальный алгоритм может извлекать новые научные знания из уже опубликованных статей, сопоставляя миллионы публикаций.

Команда, о работе которой рассказывает Science Daily, собрала 3,3 млн абстрактов статей по материаловедению, опубликованных в 1000 журналах в период с 1922 по 2018 годы, и скормила алгоритму Word2vec. ИИ выявил 500 000 различных слов, использованных в абстрактах, и превратил каждое в массив из 200 чисел, или 200-мерный вектор. Так были выявлены взаимосвязи между ними.

Хотя изначально у Word2vec не было никаких базовых представлений о материаловедении, анализ взаимоотношений между отдельными терминами и понятиями позволил ему понять их смысл. Например, алгоритм узнал, что такое кристаллическая решетка и таблица Менделеева.

После этого Word2vec смог использовать статьи для устранения пробелов в научных знаниях. Основываясь лишь на текстах, ИИ предложил несколько вариантов новых термоэлектрических материалов.

Исследователи выбрали 10 самых перспективных кандидатов и рассчитали их свойства. Оказалось, что все они превосходят средние значения по отрасли.

На следующем этапе исследователи решили проверить, может ли алгоритм прогнозировать, как будет развиваться наука. Ограничив выборку статьями до определенного года, они получили предсказания о появлении новых материалов. Значительная их часть подтвердилась в более поздних публикациях. Например, из пяти основных прогнозов, сделанных алгоритмом по данным до 2008 года, были подтверждены три.

Точность Word2vec стала для членов команды неожиданностью. По словам ученых, если бы он существовал 50 лет назад, многие важные материалы были бы созданы намного раньше. Современным исследователям похожие алгоритмы облегчат работу с огромным массивом литературы, опубликованной за последние десятилетия.

Польза алгоритмов для ученых не ограничивается обработкой имеющейся литературы. Например, искусственный интеллект может выбирать наиболее перспективные эксперименты и корректировать план исследований. Автоматизация науки обеспечит доступ к исследованиям для большего числа людей и потенциально увеличит научную продукцию многих стран.