Предсказание сворачивания белка по одиночным последовательностям с помощью Meta AI ESM-2
Исследователи из Facebook AI Research (FAIR) в Meta AI опубликовали в журнале Science статью, описывающую созданную с помощью машинного обучения базу данных из 617 миллионов предсказанных белковых структур. Языковая модель ESMFold описывала структуры в 60 раз быстрее, чем AlphaFold2 от DeepMind, хотя и с меньшей заявленной точностью.
Предсказания фолдинга были выполнены всего за две недели на кластере из примерно 2000 графических процессоров (GPU). Длина исходных последовательностей составляла от 20 до 1024 нуклеотидов. 365 миллионов предсказаний были сделаны с хорошей степенью достоверности, а около 225 миллионов попали в категорию высокой достоверности.
Согласно отчёту «Evolutionary-scale prediction of atomic-level protein structure with a language model», случайная выборка из 1 миллиона высокодостоверных результатов показала, что 767 580 белков имеют идентичность последовательности ниже 90% с любой последовательностью в базе данных UniRef90 (базе известных белковых последовательностей). Исследователи полагают, что это указывает на отличие этих белков от существующих последовательностей в UniRef90.
Команда Meta AI затем сравнила выборку предсказанных структур с известными структурами в Protein Data Bank (PDB) — базе данных трёхмерных белковых структур. При пороге 0.5 TM-score у 12.6% (125 765 белков) не было совпадения с каким-либо структурным компонентом. Основываясь на этом, исследователи оценивают, что около 28 миллионов белков (12.6% от 225 миллионов) с высокодостоверными предсказаниями могут характеризовать области белковой структуры, далёкие от существующих знаний.
Предсказания на основе последовательностей
Белок начинается как линейная последовательность нуклеотидов, скопированная с ДНК (транскрипция), создающая матричную РНК (mRNA) — «список желаний» сырых ингредиентов для будущего белка. Нуклеотиды mRNA затем транслируются в аминокислоты (сырые ингредиенты). Эта цепь аминокислот затем претерпевает невероятное превращение в сложную трёхмерную свёрнутую форму, которая, в зависимости от своей структуры, выполняет специфические сложные клеточные функции.
То, как сворачивается белок или фермент, частично определяет его функцию, поскольку ограничивает и оптимизирует то, с чем он может взаимодействовать. Структура создаёт отверстие или «замок», который работает только с правильным молекулярным «ключом». Люди использовали эти ферменты по принципу «замка и ключа» во всём: от пищевой промышленности и пивоварения до текстиля и биотоплива, без детального понимания того, как белки на самом деле свернуты.
Стиральные порошки обычно содержат несколько типов ферментов, некоторые из которых являются целлюлазами, расщепляющими растительный материал. Когда фермент целлюлаза сталкивается с целлюлозой из травяного пятна, целлюлоза становится ключом, подходящим к замку. Фермент запускает химическую реакцию, разрывающую связи внутри пятна. Тот же фермент ничего не сделает при встрече с пятном от помады или жира — это может быть работа другого фермента.
Один белковый фермент может выполнять задачу тысячи или даже миллионы раз в секунду, не разрушаясь, предлагая отраслям мощный низкоэнергетический катализатор и делая ферменты инструментальной технологией.
Каждая система в нашем теле также полагается на белки для выполнения биологических функций. Поскольку свёрнутая структура белка имеет решающее значение для его активности, понимание этой структуры крайне важно для понимания того, как они работают при исследовании причин заболеваний.
Возможность предсказать, как свернётся белок, на основе первичной последовательности аминокислот (сырых ингредиентов), позволила бы медицинским исследователям лучше понять взаимодействия белков с метаболитами и биологические функции по всему телу. Это понимание с более высоким разрешением могло бы выявить скрытые признаки заболеваний, ускорить исследования новых или лучших методов лечения и в некоторой степени революционизировать современную медицину. Точное понимание того, как структура следует за формой сырых ингредиентов (транслированной mRNA), также позволило бы исследователям создавать пользовательские белки для выполнения конкретных задач в здравоохранении и промышленности.
В десятилетия, предшествовавшие моделям предсказания на основе ИИ, учёные смоделировали структуры около 190 000 белков, представляющих интерес. Машинное обучение теперь сгенерировало сотни миллионов предсказаний, которые всё ещё нуждаются в подтверждении и изучении, чтобы стать полезными. Хотя они всё ещё недостаточно надёжны, чтобы заменить более медленный методичный метод рентгеновской кристаллографии для определения структуры или контролируемый эксперимент по анализу функции, ИИ только начинает свою работу. Знания, полученные в грядущие десятилетия, скорее всего, затмят всё, что было раньше.
