С помощью ИИ исследователи предсказывают расположение практически любого белка в человеческой клетке

Неправильное расположение белка в клетке может способствовать развитию таких заболеваний, как болезнь Альцгеймера, муковисцидоз и рак. Однако в одной человеческой клетке около 70 000 различных белков и их вариантов, и поскольку ученые обычно могут проверить лишь несколько из них в одном эксперименте, ручное определение локализации белков крайне затратно и требует много времени.

Новое поколение вычислительных методов стремится упростить этот процесс с помощью моделей машинного обучения, которые часто используют наборы данных, содержащие тысячи белков и их локализацию, измеренную в множестве клеточных линий. Один из крупнейших таких наборов данных — Human Protein Atlas, который каталогизирует поведение более 13 000 белков в субклеточных структурах более чем 40 клеточных линий. Но, несмотря на огромный объем, Human Protein Atlas изучил лишь около 0.25% всех возможных пар белков и клеточных линий в базе данных.

Теперь исследователи из MIT, Гарварда и Broad Institute разработали новый вычислительный подход, который может эффективно исследовать оставшееся неизведанное пространство. Их метод может предсказать расположение любого белка в любой человеческой клеточной линии, даже если и белок, и клетка ранее никогда не тестировались.

Статья опубликована в Nature Methods.

Метод идет на шаг дальше многих подходов на основе ИИ, локализуя белок на уровне отдельной клетки, а не как усредненную оценку по всем клеткам определенного типа. Такая локализация на уровне одной клетки может, например, указать на расположение белка в конкретной раковой клетке после лечения.

Исследователи объединили языковую модель для белков с особым типом модели компьютерного зрения, чтобы захватить богатые детали о белке и клетке. В итоге пользователь получает изображение клетки с выделенной областью, указывающей на предсказанную моделью локализацию белка. Поскольку локализация белка указывает на его функциональный статус, эта техника может помочь исследователям и клиницистам эффективнее диагностировать заболевания или идентифицировать мишени для лекарств, а также позволит биологам лучше понять, как сложные биологические процессы связаны с локализацией белка.

«Вы могли бы проводить эти эксперименты по локализации белков на компьютере, даже не приближаясь к лабораторному столу, экономя месяцы усилий. Хотя предсказание все равно нужно будет проверить, эта техника может служить первоначальным скринингом того, что тестировать экспериментально», — говорит Йитонг Цео, аспирант программы по вычислительной и системной биологии MIT и соавтор статьи.

Совместная работа моделей

Многие существующие модели предсказания белков могут делать прогнозы только на основе данных о белках и клетках, на которых они были обучены, или не способны точно определить локализацию белка в пределах одной клетки.

Чтобы преодолеть эти ограничения, исследователи создали двухэтапный метод для предсказания субклеточной локализации неизученных белков, названный PUPS.

Первая часть использует модель белковых последовательностей, чтобы захватить свойства, определяющие локализацию белка, и его 3D-структуру на основе цепочки аминокислот, из которой он состоит.
Вторая часть включает модель дорисовки изображений (inpainting), предназначенную для заполнения недостающих частей изображения. Эта модель компьютерного зрения анализирует три окрашенных изображения клетки, чтобы собрать информацию о её состоянии: тип, индивидуальные особенности, находится ли она в состоянии стресса.

PUPS объединяет представления, созданные каждой моделью, чтобы предсказать, где белок расположен внутри отдельной клетки, используя декодер изображений для вывода итоговой картинки с выделенной областью предсказанной локализации.

«Разные клетки в пределах одной клеточной линии проявляют разные характеристики, и наша модель способна понимать эти нюансы», — говорит Цео.

Пользователь вводит последовательность аминокислот, образующих белок, и три изображения окрашенной клетки — для ядра, микротрубочек и эндоплазматического ретикулума. Затем PUPS делает всё остальное.

Более глубокое понимание

Исследователи использовали несколько приемов в процессе обучения, чтобы научить PUPS комбинировать информацию от каждой модели таким образом, чтобы он мог сделать обоснованное предположение о локализации белка, даже если никогда его не видел.

Например, во время обучения модели дают второстепенную задачу: явно назвать компартмент локализации, например, клеточное ядро. Это делается параллельно с основной задачей дорисовки, чтобы помочь модели учиться эффективнее.

Кроме того, тот факт, что PUPS обучается одновременно на белках и клеточных линиях, помогает ему развить более глубокое понимание того, где в изображении клетки белки обычно локализуются.

PUPS может даже самостоятельно понять, как разные части последовательности белка по отдельности влияют на его общую локализацию.

«Большинство других методов обычно требуют, чтобы у вас уже было окрашивание белка, то есть вы уже видели его в обучающих данных. Наш подход уникален тем, что может обобщать информацию одновременно по белкам и клеточным линиям», — говорит соавтор Синьи Чжан.

Поскольку PUPS может обобщать информацию на неизученные белки, он может улавливать изменения в локализации, вызванные уникальными мутациями белка, которых нет в Human Protein Atlas.

Исследователи проверили, что PUPS может предсказывать субклеточную локализацию новых белков в неизученных клеточных линиях, проведя лабораторные эксперименты и сравнив результаты. Кроме того, по сравнению с базовым методом ИИ, PUPS показал в среднем меньшую ошибку предсказания по тестируемым белкам.

В будущем исследователи хотят улучшить PUPS, чтобы модель могла понимать белково-белковые взаимодействия и делать прогнозы локализации для нескольких белков внутри клетки. В долгосрочной перспективе они стремятся позволить PUPS делать предсказания для живой человеческой ткани, а не культивируемых клеток.

2025-05-13