Hitech logo

Идеи

Разработана гигантская модель синтеза белков

TODO:
Георгий Голованов9 июля, 12:23

Американская компания Evolutionary Scale анонсировала самую большую на сегодня модель искусственного интеллекта для биологии. Инструмент ESM3 — это так называемая модель белкового языка, обученная на 2,7 млрд белковых цепей и структур, а также информации о функциях белков. Ее можно использовать для создания протеинов с заданными свойствами, по аналогии с текстом, который компилирует по запросу пользователя ChatGPT.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

«Мы хотим создать инструмент, который сделает биологию программируемой», — сказал Алекс Райвс. Он и его коллеги работали над ранними версиями ESM в компании Meta [признана экстремистской организацией], пока в прошлом году проект не оказался свернут. Ученые успели разработать ESM-1, которая создает антитела с улучшенным действием против патогенов, и ESM-2, которая позволила собрать базу данных из 600 млн прогнозируемых белковых структур.

Продолжив работу над моделью самостоятельно, команда Райвса сосредоточилась на зеленом флуоресцентном белке (ЗФБ), который широко используется в качестве метки в клеточной и молекулярной биологии. Исследователи попросили модель создать примеры белков, похожих на ЗФБ, которые содержали бы те же ключевые аминокислоты, рассказывает Nature.

В результате были синтезированы 88 наиболее многообещающих вариантов. Один из них обладал способностью к флуоресценции. Используя цепи этой молекулы в качестве отправной точки, ученые снова обратились к ESM3 с просьбой усовершенствовать ее. Из сотни новых вариантов были выбраны несколько, сопоставимых по яркости свечения с натуральным ЗФБ.

Структура одного из самых ярких синтезированных белков, esmGFP, напоминает натуральные флуоресцентные белки. Однако ее аминокислотный состав совпадает лишь на 60%. По словам Райвса, в природе такие мутации произошли бы за 500 миллионов лет. Таким образом, ESM3 позволит быстро проектировать интересующие биологов протеины.

Из-за риска использования модели в преступных целях — например, для создания опасных патогенов — самая мощная версия программы не доступна для публики. В урезанной версии нет определенных вирусов и токсинов, а также возможности их синтезировать.

Технология генного редактирования CRISPR использует белок Cas9 для разрезания ДНК, однако теперь благодаря искусственному интеллекту появился более точный инструмент для этих сложных манипуляций. В первых экспериментах воздействие на нецелевые участки удалось снизить на 95%.