Когда DeepMind представила AlphaFold 2 в 2020 году, это стало прорывом. Модель решила многолетнюю проблему: как определить трехмерную форму белка на основе его аминокислотной последовательности. Однако с последовательностями ДНК всё намного сложнее. Здесь нет одного «правильного» ответа, как в случае с белками. Один и тот же участок ДНК может выполнять много взаимосвязанных ролей — от привлечения клеточных механизмов, которые прикрепляются к определённой части хромосомы, чтобы превратить соседний ген в молекулу РНК, до активации белковых факторов транскрипции, определяющих, где, когда и насколько активно будет работать ген.
За последние десять лет ученые разработали десятки моделей искусственного интеллекта для расшифровки генома. Многие из них были узкоспециализированными — например, предсказывали уровень экспрессии генов или определяли, как отдельные модули генов (экзоны) комбинируются в разные белки. Однако сейчас исследователи все чаще стремятся создать универсальные инструменты для интерпретации последовательностей ДНК.
AlphaGenome — одна из таких моделей. Она может анализировать участки ДНК длиной до миллиона букв (что может включать целый ген и множество управляющих элементов) и делать тысячи предсказаний о разных биологических свойствах. Важно, что предсказания AlphaGenome чувствительны даже к изменению одной-единственной буквы в ДНК, а это значит, что учёные могут заранее предсказать последствия любых мутаций.
В одном из исследований команда DeepMind использовала AlphaGenome для анализа мутаций, найденных у пациентов с одним из видов лейкемии. Модель смогла точно предсказать, что некодирующие мутации косвенно активировали соседний ген, который часто провоцирует развитие этого рака.
AlphaGenome обучалась исключительно на геномных и других экспериментальных данных, полученных от людей и мышей. По словам исследователя DeepMind Жиги Авсека, модель, возможно, сможет применяться и к геномам близкородственных организмов, однако это пока не подтверждено. Важно понимать, что AlphaGenome не предназначена для точной интерпретации генома конкретного человека и не дает полного ответа на вопрос, как различные варианты ДНК влияют на развитие сложных заболеваний.
Точность предсказаний AlphaGenome можно улучшить. Например, модели сложно определять последовательности ДНК, которые влияют на активность генов, расположенных на расстоянии более 100 000 пар оснований. Это значит, что модель пока не «решила» проблему регуляции генов в той же степени, в какой AlphaFold, например, справилась с предсказанием трёхмерной структуры белков. Кроме того, AlphaGenome и подобные модели пока не полностью учитывают динамичность клеток. Они обучаются на фиксированных данных, тогда как в реальных клетках постоянно меняются уровни белков, химические метки на ДНК и другие условия. Эти изменения влияют на то, как ведут себя одни и те же ДНК-последовательности.
Предполагается, что на основе AlphaGenome будут создаваться новые «регуляторные» ДНК-последовательности, которые позволят точно контролировать активность генов. Также модель можно использовать для виртуальных экспериментов, симулирующих реакцию клеток на генетические изменения. Исследователи, работающие над некоммерческими проектами, могут получить доступ к модели через серверы DeepMind с использованием программного интерфейса. Планируется более широкий выпуск, который откроет возможности для создания сложных приложений.