С помощью ИИ исследователи предсказывают расположение практически любого белка в человеческой клетке
Неправильное расположение белка в клетке может способствовать развитию таких заболеваний, как болезнь Альцгеймера, муковисцидоз и рак. Однако в одной человеческой клетке около 70 000 различных белков и их вариантов, и поскольку ученые обычно могут проверить лишь несколько из них в одном эксперименте, ручное определение локализации белков крайне затратно и требует много времени.
Новое поколение вычислительных методов стремится упростить этот процесс с помощью моделей машинного обучения, которые часто используют наборы данных, содержащие тысячи белков и их локализацию, измеренную в множестве клеточных линий. Один из крупнейших таких наборов данных — Human Protein Atlas, который каталогизирует поведение более 13 000 белков в субклеточных структурах более чем 40 клеточных линий. Но, несмотря на огромный объем, Human Protein Atlas изучил лишь около 0.25% всех возможных пар белков и клеточных линий в базе данных.
Теперь исследователи из MIT, Гарварда и Broad Institute разработали новый вычислительный подход, который может эффективно исследовать оставшееся неизведанное пространство. Их метод может предсказать расположение любого белка в любой человеческой клеточной линии, даже если и белок, и клетка ранее никогда не тестировались.
Статья опубликована в Nature Methods.
Метод идет на шаг дальше многих подходов на основе ИИ, локализуя белок на уровне отдельной клетки, а не как усредненную оценку по всем клеткам определенного типа. Такая локализация на уровне одной клетки может, например, указать на расположение белка в конкретной раковой клетке после лечения.
Исследователи объединили языковую модель для белков с особым типом модели компьютерного зрения, чтобы захватить богатые детали о белке и клетке. В итоге пользователь получает изображение клетки с выделенной областью, указывающей на предсказанную моделью локализацию белка. Поскольку локализация белка указывает на его функциональный статус, эта техника может помочь исследователям и клиницистам эффективнее диагностировать заболевания или идентифицировать мишени для лекарств, а также позволит биологам лучше понять, как сложные биологические процессы связаны с локализацией белка.
«Вы могли бы проводить эти эксперименты по локализации белков на компьютере, даже не приближаясь к лабораторному столу, экономя месяцы усилий. Хотя предсказание все равно нужно будет проверить, эта техника может служить первоначальным скринингом того, что тестировать экспериментально», — говорит Йитонг Цео, аспирант программы по вычислительной и системной биологии MIT и соавтор статьи.
Совместная работа моделей
Многие существующие модели предсказания белков могут делать прогнозы только на основе данных о белках и клетках, на которых они были обучены, или не способны точно определить локализацию белка в пределах одной клетки.
Чтобы преодолеть эти ограничения, исследователи создали двухэтапный метод для предсказания субклеточной локализации неизученных белков, названный PUPS.
- Первая часть использует модель белковых последовательностей, чтобы захватить свойства, определяющие локализацию белка, и его 3D-структуру на основе цепочки аминокислот, из которой он состоит.
- Вторая часть включает модель дорисовки изображений (inpainting), предназначенную для заполнения недостающих частей изображения. Эта модель компьютерного зрения анализирует три окрашенных изображения клетки, чтобы собрать информацию о её состоянии: тип, индивидуальные особенности, находится ли она в состоянии стресса.
PUPS объединяет представления, созданные каждой моделью, чтобы предсказать, где белок расположен внутри отдельной клетки, используя декодер изображений для вывода итоговой картинки с выделенной областью предсказанной локализации.
«Разные клетки в пределах одной клеточной линии проявляют разные характеристики, и наша модель способна понимать эти нюансы», — говорит Цео.
Пользователь вводит последовательность аминокислот, образующих белок, и три изображения окрашенной клетки — для ядра, микротрубочек и эндоплазматического ретикулума. Затем PUPS делает всё остальное.
Более глубокое понимание
Исследователи использовали несколько приемов в процессе обучения, чтобы научить PUPS комбинировать информацию от каждой модели таким образом, чтобы он мог сделать обоснованное предположение о локализации белка, даже если никогда его не видел.
Например, во время обучения модели дают второстепенную задачу: явно назвать компартмент локализации, например, клеточное ядро. Это делается параллельно с основной задачей дорисовки, чтобы помочь модели учиться эффективнее.
Кроме того, тот факт, что PUPS обучается одновременно на белках и клеточных линиях, помогает ему развить более глубокое понимание того, где в изображении клетки белки обычно локализуются.
PUPS может даже самостоятельно понять, как разные части последовательности белка по отдельности влияют на его общую локализацию.
«Большинство других методов обычно требуют, чтобы у вас уже было окрашивание белка, то есть вы уже видели его в обучающих данных. Наш подход уникален тем, что может обобщать информацию одновременно по белкам и клеточным линиям», — говорит соавтор Синьи Чжан.
Поскольку PUPS может обобщать информацию на неизученные белки, он может улавливать изменения в локализации, вызванные уникальными мутациями белка, которых нет в Human Protein Atlas.
Исследователи проверили, что PUPS может предсказывать субклеточную локализацию новых белков в неизученных клеточных линиях, проведя лабораторные эксперименты и сравнив результаты. Кроме того, по сравнению с базовым методом ИИ, PUPS показал в среднем меньшую ошибку предсказания по тестируемым белкам.
В будущем исследователи хотят улучшить PUPS, чтобы модель могла понимать белково-белковые взаимодействия и делать прогнозы локализации для нескольких белков внутри клетки. В долгосрочной перспективе они стремятся позволить PUPS делать предсказания для живой человеческой ткани, а не культивируемых клеток.
