Языковые модели для предсказания белков появились в 2018 году благодаря работе Бонни Бергер и Тристана Беплера. Эти инструменты основаны на больших языковых моделях (LLM), но вместо слов анализируют последовательности аминокислот. С их помощью ученые могут предсказывать структуру и функции белков, и находить потенциальные мишени для вакцин. В 2021 году Бергер и коллеги использовали такую модель, чтобы предсказать участки вирусных поверхностных белков, которые с наименьшей вероятностью мутируют так, чтобы вирус смог избежать иммунного ответа. Это позволило определить возможные цели для вакцин против гриппа, ВИЧ и SARS-CoV-2.
Однако у этих моделей есть одна проблема: невозможно понять, как именно они делают предсказания. Модели выдают результат, но внутренние процессы нейросети остаются непрозрачными, и ученым было сложно определить, какие характеристики белка наиболее важны для предсказания. Большие языковые модели, в целом, функционируют как «черный ящик», и эта проблема волнует разработчиков, например, Anthropic.
В новом исследовании команда MIT изучала, как языковые модели формируют свои предсказания относительно белков. Модели кодируют информацию о белке в виде представлений — паттернов активации множества «узлов» нейронной сети. Каждый узел — это элемент сети, который реагирует на определенные признаки белка, аналогично тому, как нейроны в мозге хранят память о конкретных вещах. Обычно паттерн активации ограничен небольшим числом узлов, например 480, и каждый узел одновременно кодирует несколько свойств белка, что делает интерпретацию почти невозможной.
Для решения этой проблемы ученые использовали разреженный автоэнкодер — алгоритм, который преобразует плотное представление белка в гораздо более разреженное и детализированное. Автоэнкодер расширяет число узлов до десятков тысяч, например до 20 000, создавая пространство, в котором отдельные признаки белка могут «распространяться» на отдельные узлы. То есть признак белка, ранее кодировавшийся несколькими узлами, может занимать один.
Как объясняет аспирант Онкар Гуджрал, в разреженном представлении активации узлов становятся «осмысленными», в отличие от плотного представления, где информация упакована настолько тесно, что понять, какой узел за что отвечает, практически невозможно.
После создания разреженных представлений исследователи использовали ИИ-помощника Claude для анализа узлов. Система сопоставляла узлы с известными характеристиками белков, такими как функция, семейство или локализация в клетке, и описывала их простым языком, например, «нейрон может отвечать за транспорт ионов через клеточную мембрану».
Этот процесс делает узлы гораздо более «интерпретируемыми», позволяя исследователям понять, какие именно характеристики белка кодирует каждый узел. Так, выяснилось, что узлы чаще всего отражают принадлежность к определённому семейству белков и конкретные функции, включая различные метаболические и биосинтетические процессы.
Теперь ученые смогут подбирать наиболее подходящую модель для конкретной задачи и оптимизировать вводимые данные, чтобы получать более точные предсказания. Кроме того, этот подход открывает возможности для выявления ранее неизвестных биологических закономерностей. В перспективе такие методы позволят изучать белки глубже, чем когда-либо прежде, просто анализируя внутренние представления моделей. В итоге биологические исследования станут более прозрачными и эффективными.