Hitech logo

машинное обучение

Время секвенировния молекул может быть сокращено с нескольких лет до минут

TODO:
Георгий Голованов9 марта 2021 г., 13:50

При помощи нанопорового метода ученые из США продемонстрировали возможность сокращения времени секвенировния гликозаминогликанов — класса важных для ДНК человека молекул-полисахаридов — с нескольких лет до нескольких минут. Они использовали технологию машинного обучения и распознавания изображений для быстрой и точной идентификации полисахаридов посредством электрических сигналов, которые они генерируют, проходя сквозь крошечные отверстия в кристаллической решетке.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Гликозаминогликаны — структурно сложный класс гликанов, сахаров, имеющихся в организме живых существ. Их можно обнаружить на поверхности и внеклеточного матрикса всех животных. Они выполняют множество функций — участвуют в росте клеток, противодействуют свертыванию, восстанавливают поврежденные ткани и поддерживают агрегацию клеток. Некоторые из них применяются в фармакологии для создания лекарств и питательных добавок.

В отличие от ДНК, они состоят не из четырех, а из десятков базовых элементов. К примеру, относительно небольшая природная молекула гепарансульфата может иметь 32 768 возможных оснований. Поэтому секвенирование гликанов остается очень трудоемким процессом, требующим сложной лабораторной работы и тщательного анализа, а также использования масс-спектрометрии и ЯМР-спектроскопии.

Устройства для нанопорового секвенирования определяют последовательность четырех нуклеотидных остатков в нуклеиновых кислотах, обозначающихся латинскими буквами А, С, G и T, в ДНК. Ионный ток пропускается через отверстие в мембране диаметром несколько миллиардных метра. Цепочки ДНК помещаются с одной стороны отверстия и вовлекаются внутрь действием тока. Каждая нуклеотидная кислота блокирует отверстие специфическим образом, прерывая ток и создавая узнаваемый сигнал.

Команда специалистов из Политехнического института Ренсселера создала собственное нанопорное устройство и синтезировала четыре очень простые цепочки гликозаминогликанов, состоящие из комбинации всего четырех типов элементов длиной около 40 штук, пишет Phys.org. Затем они пропустили каждую из них через нанопору свыше 2000 раз и получили диаграмму напряжения для каждого из них.

Для того чтобы повысить точность анализа, они загрузили результаты в программу машинного обучения и задействовали нейросеть, распознающую изображения, чтобы научить ее распознавать каждый из вариантов гепаринсульфата. Наиболее успешная модель продемонстрировала точность почти 97% за несколько минут.

«Это только прототип. Мы научили его читать слова из двух букв, — заявил профессор Роберт Линхардт, руководитель проекта. — Как только мы научим его всему алфавиту, он сможет читать всевозможные последовательности. Он сможет читать все слова».

В прошлом году команда исследователей из Университета Джонса Хопкинса сообщила о разработке нового программного обеспечения, способного произвести революцию в секвенировании генома, от ДНК дрожжей до рака. Новый процесс сокращает время определения мутаций генов с 15 дней и более до трех.