Как сообщает в пресс-релизе Google Deep Mind, «Алетейя» проанализировала 700 открытых проблем из базы Эрдёша — сборника задач, сформулированных математиком Полом Эрдёшем. В результате было найдено решение для 13 проблем, причем четыре из них, по мнению исследователей, действительно оригинальные, сделанные ИИ автономно.
В отличие от прежних достижений ИИ в математике (например, решения олимпиадных задач), «Алетейя» работает по итеративному принципу «генерация — проверка — доработка», имитирующему научное рецензирование. Система содержит модуль верификации на естественном языке, способный выявлять логические ошибки в предлагаемых решениях и явно сообщать о неудаче.
Среди наиболее значимых результатов — построение контрпримера, опровергающего гипотезу 2015 года в области субмодулярной оптимизации. Также ИИ внес вклад в задачи о максимальном разрезе графа и о дереве Штейнера, применив математические методы из несвязанных областей.
Также в блоге DeepMind упоминается случай использования режима Deep Think профессором математики Ратгерского университета Лизой Карбоне для проверки технической статьи: система обнаружила логическую ошибку, не замеченную людьми-рецензентами.
Однако результаты демонстрируют и серьезные ограничения подхода. Из 200 предложенных «Алетейей» решений, которые изучили эксперты, лишь 6,5% были признаны «содержательно верными». Остальные содержали фундаментальные ошибки либо, будучи технически корректными, решали не ту задачу, которую ставил Эрдёш.
Авторы признают склонность ИИ «интерпретировать вопрос наиболее удобным для ответа способом» и его существенно более высокую, чем у людей, частоту ошибок. Также высказано беспокойство о «подсознательном плагиате» — воспроизведении знаний из обучающих данных без указания источника.
Совсем недавно вышла статья американских ученых, которые провели уникальный эксперимент по оценке способностей моделей ИИ решать настоящие исследовательские задачи по математике. И пришли к выводу, что даже ведущие модели этого пока не умеют.

