Глубокое секвенирование протеома создает атлас человеческой сложности

Одна из главных загадок биологии заключается в том, что, хотя человеческий геном содержит примерно 20 000 генов, многие сравнительно примитивные организмы, включая широко изучаемого червя C. elegans, имеют почти такое же их количество.

Если дело не только в генах, что объясняет этот квантовый скачок в сложности между двумя видами?

Один из ответов может лежать в области протеомики, которая фокусируется на идентификации и определении белков — строительных блоков отдельной клетки. Вместо схемы «один ген — один белок — одна функция» человеческие гены действуют как мощные сжатые файлы: один ген может кодировать сотни различных белков, каждый из которых выполняет точные функции в организме.

До 95% человеческих генов обладают этой способностью, известной как альтернативный сплайсинг.

Новое исследование, опубликованное 24 марта в журнале Nature Biotechnology, описывает мета-масштабный подход к количественному определению человеческого протеома и огромного числа белковых вариантов, производимых организмом. Протеомика — краеугольный камень биологии и предшественник понимания того, как дисфункция белков способствует развитию болезней.

Под руководством Джошуа Куна, профессора биомолекулярной химии в Университете Висконсин-Мэдисон и исследователя в Morgridge Institute for Research, команда разработала метод «глубокого секвенирования протеома», который обеспечивает беспрецедентную характеристику белков, обнаруживаемых в стандартных протеомных экспериментах.

Проект использовал шесть различных типов человеческих клеток и шесть протеаз — ферментов, расщепляющих белки на более мелкие фрагменты (пептиды), которые служат сырьем для детекции в эксперименте. Затем команда проанализировала пептиды, применяя различные методы масс-спектрометрии — ведущей технологии для идентификации белков.

Исследователи идентифицировали более 1 миллиона пептидов из 17 717 различных белковых групп. На основе этих данных им удалось детектировать примерно 80% последовательностей всех индивидуальных белков в этих образцах — это огромный рост по сравнению со стандартными подходами, секвенирующими лишь ~20% белков.

Достижение этой более полной картины — «Святой Грааль» протеомики.

«В области масс-спектрометрии и протеомики всегда была цель — детектировать все белки, присутствующие в образце, а затем полностью секвенировать все присутствующие индивидуальные белки, — говорит Кун. — Но на самом деле мы детектировали не целый белок, а лишь его небольшие фрагменты».

«Данные, полученные в этом исследовании, представляют собой самую глубокую протеомную карту, собранную на сегодняшний день, — добавляет Кун. — Эти методы и ресурсы закладывают основу для всестороннего картирования белкового разнообразия и, как ожидается, будут катализировать будущие исследовательские усилия».

Исследовательская группа создала общедоступный онлайн-ресурс deep-sequencing.app, где ученые могут запросить любой ген и изучить соответствующие пептиды и модификации белков, связанные с этим геном.

Проект, в основном спонсируемый Национальными институтами здравоохранения (NIH), получил значительный вклад от исследовательских групп из Института биохимии Макса Планка (Германия), Университета Торонто (Канада) и Института Гарвана (Австралия). Павел Синицин, ученый из Института Макса Планка, а ныне постдок в лаборатории Куна и стипендиат Morgridge Interdisciplinary Postdoctoral Fellow, возглавил масштабную работу по анализу данных для проекта, который за 10 лет сгенерировал более пяти терабайт данных. В Торонто исследователь Бенджамин Бленкоу предоставил экспертизу по альтернативному сплайсингу.

Ученые расходились во мнениях о том, насколько альтернативный сплайсинг способствует белковому разнообразию, в основном потому, что этот процесс очень трудно детектировать на уровне белков. Проект лаборатории Куна стал первым, специально нацеленным на поиск доказательств событий сплайсинга в самих белках. Они обнаружили, что большая часть альтернативного сплайсинга, детектированного на стадии РНК-экспрессии генов, также присутствует в белках.

«Я думаю, это знание говорит нам, что да, эти идеи о сплайсинге — позволяющем клетке иметь этот репертуар белков для различных целей — теперь подтверждены. Это первый раз, когда мы смогли это измерить и доказать», — говорит Кун.

Работая в Институте Макса Планка, Синицин трудился в лаборатории Юргена Кокса, ведущей мировой биоинформатической группы в области вычислительной масс-спектрометрии. Синицин разработал программные решения для возможности детекции доказательств вариантов отдельных аминокислот и альтернативного сплайсинга в данных масс-спектрометрии.

«Мы имеем дело с более чем пятью терабайтами данных из гетерогенных источников, поэтому нашей первой проблемой было найти способ учесть высокую вероятность генерации ложноположительных результатов, — говорит Синицин. — Но вторая проблема, захватывающая, заключалась в том, чтобы продемонстрировать, насколько релевантным этот набор данных может быть для важных биологических вопросов».

2023-03-23