Theorizer отвечает на ключевой вопрос: может ли ИИ самостоятельно синтезировать научные теории, опираясь на научную литературу. Пользователь формулирует запрос вроде «создай теории о X», после чего система изучает релевантные публикации и выдает набор обобщений о выявленных закономерностях, условиях их применимости и подтверждающих данных. По замыслу разработчиков, это позволяет за минуты получить обзор теоретического ландшафта, на который у человека ушли бы месяцы.
В отличие от инструментов, которые пересказывают статьи или составляют обзоры литературы, Theorizer выявляет устойчивые закономерности, повторяющиеся в разных исследованиях. Каждая теория представляется в структурированном виде: «закон — область применения — доказательства», а также получает название и краткое описание. Как правило, одна теория содержит 1-2 закона, сформулированных как качественные или количественные зависимости. Область применения уточняет, при каких условиях действует закон, какие есть ограничения и исключения. В качестве доказательств используются эмпирические и наблюдательные данные, например, результаты проведенных экспериментов.
Работа системы построена в виде многоэтапного конвейера. Сначала Theorizer формирует корпус литературы, отбирая до 100 релевантных статей через Semantic Scholar и другие инструменты. Затем он извлекает из них ключевые сущности и эмпирические результаты по заранее сгенерированной схеме, адаптированной под конкретный запрос.
На финальном этапе эти данные агрегируются, из них формируются теории-кандидаты, которые затем проходят стадию самопроверки и уточнения. Один запрос выполняется за 15-30 минут.
Для оценки качества сгенерированных теорий исследователи разработали специальный бенчмарк. Он учитывает пять критериев: специфичность, эмпирическое подтверждение, прогностическую точность, новизну и правдоподобие. Проверка показала, что теории, основанные на анализе литературы, заметно превосходят те, которые ИИ генерирует, опираясь только на свои параметрические знания.
Особое внимание уделялось способности Theorizer предсказывать будущие научные результаты. Для этого систему запускали с фиксированной «датой отсечения» знаний: теории генерировались на основе более ранней литературы. Затем ИИ анализировал более поздние публикации и определял, подтверждают ли они эти предсказания, противоречат им или не содержат релевантных данных. Всего таким образом были проверены 3 тыс. законов на основе 4,5 тыс. статей и более 16 тыс. сопоставлений «закон — публикация». Анализ показал, что теории, основанные на систематическом анализе литературы, дают более точные и проверяемые прогнозы, особенно при генерации новых, нетривиальных закономерностей.
Разработчики подчеркивают, что Theorizer — это исследовательский инструмент, а не «истина в последней инстанции». Его выводы следует рассматривать как отправную точку для дальнейшей работы. Вместе с системой авторы опубликовали исходный код, интерфейс и датасет из примерно 3000 теорий в области ИИ и обработки естественного языка. По их словам, такие инструменты помогают ориентироваться в стремительно растущем массиве научных публикаций и упрощают переход от разрозненных результатов к теоретическим обобщениям.

