Белки — фундамент жизни, выполняющий много функций в организме. Но еще есть микропротеины, гораздо меньшие по размеру. Им уделялось не так много внимания, так как они прячутся в 99% ДНК, считающейся «некодирующей». Ранее предполагалось, что эти области — «мусорная ДНК», но последние исследования показывают, что они содержат ценные инструкции для синтеза биологически активных молекул.
Обнаружение микропротеинов осложнено их маленьким размером — менее 150 аминокислот, в то время как обычные белки могут содержать сотни или тысячи аминокислот. Поэтому ученые вместо прямого поиска самих микропротеинов обращаются к большим открытым базам данных ДНК, где ищут особые участки, которые могут их кодировать — smORF. Однако далеко не все они оказываются функциональными, что требует дополнительных трудоемких проверок.
Новый инструмент ShortStop использует машинное обучение, чтобы автоматически анализировать генетические данные и разделять smORF на потенциально функциональные и нефункциональные. Для этого ИИ обучается на наборе случайных нефункциональных smORF и сравнивает с ними новые данные, помогая быстро отсеивать нефункциональные варианты.
Это сокращает список кандидатов, нуждающихся в лабораторной проверке, и экономит время и ресурсы ученых. Хотя ShortStop не дает абсолютной гарантии, что найденные микропротеины действительно биологически активны, он ускоряет их обнаружение и изучение.
Применив ShortStop к большому набору данных smORF, исследователи определили 8% последовательностей как потенциально функциональные микропротеины, которым теперь отдают приоритет для целевых дальнейших исследований. Также ShortStop использовался для изучения генетических данных рака лёгких, в результате чего было 210 новых кандидатов на микропротеины.
Среди них был микропротеин, который может стать целью для разработки новых лекарств. Он проявлял повышенную активность именно в опухолевой ткани лёгких, что указывает на его возможную роль в развитии болезни и делает его перспективным биомаркером или терапевтической мишенью.
По словам исследователей, ShortStop открывает новые возможности для поиска микропротеинов, связанных с теми или иными болезнями — от рака и болезни Альцгеймера до ожирения. Использование уже существующих дата-сетов делает этот инструмент доступным для многих лабораторий по всему миру.