Исследователи создали первый инструментарий для анализа РНК-секвенирования с использованием «пантранскриптома»

Анализ экспрессии генов человека требует сопоставления его РНК-ландшафта со стандартным референсом, чтобы понять, насколько гены «включены» и выполняют функции в организме. Однако исследователи могут столкнуться с проблемами, когда референс не предоставляет достаточно информации для точного картирования — это проблема, известная как reference bias (смещение референса).

В новой статье, опубликованной в журнале Nature Methods, исследователи из UC Santa Cruz представили первый в истории метод для анализа данных RNA sequencing (РНК-секвенирования) на уровне всего генома с использованием «пантранскриптома». Он объединяет транскриптом и пангеном — референс, содержащий генетический материал из когорты разнообразных индивидов, а не одну линейную последовательность.

Группа учёных под руководством доцента биомолекулярной инженерии UCSC Бенедикта Патена выпустила набор инструментов, который позволяет исследователям сопоставлять РНК-данные индивида с гораздо более богатым референсом, устраняя смещение и обеспечивая гораздо более точное картирование.

«Это пангеном плюс транскриптом — такое сочетание раньше по-настоящему не делалось», — сказал Джордан Айзенга, соавтор статьи и постдок в UCSC Computational Genomics Lab. — «Это первая попытка включить пангеном в качестве стандартной функции картирования РНК-секвенирования».

Этот инструмент поможет исследователям по всему миру, изучающим экспрессию генов через анализ РНК-секвенирования. Инструменты находятся в открытом доступе на Github.

«С помощью этого набора инструментов мы используем более разнообразные данные, которые теперь можем получить из пангенома, чтобы улучшить измерение данных об экспрессии генов, которая может сильно различаться у разных людей», — отметил Патен. — «Цель — сделать влияние этих разнообразных данных ощутимым в исследованиях экспрессии генов, что приведёт к лучшему анализу для клеточных моделей, моделей органоидов и других исследовательских приложений».

Наиболее известная функция РНК — трансляция ДНК в белки, но учёные теперь понимают, что подавляющее большинство РНК является некодирующей и не производит белки, а вместо этого может играть такие роли, как влияние на структуру клетки или регуляция генов. Весь РНК-ландшафт известен как транскриптом, и его картирование позволяет лучше понять экспрессию генов индивида.

Пантранскриптом развивает возникающую концепцию «пангеномики» в геномике. Обычно при оценке геномных данных индивида на предмет вариаций учёные сравнивают его геном с референсом, состоящим из одной линейной цепочки оснований ДНК. Использование пангенома позволяет исследователям сравнить геном индивида с генетически разнообразной когортой референсных последовательностей одновременно, полученных от индивидов, представляющих разнообразие биогеографического происхождения. Это даёт учёным больше точек сравнения для лучшего понимания геномных вариаций индивида.

Картирование данных РНК-секвенирования для понимания экспрессии генов может быть сложным, потому что последовательности РНК сплайсируются клеточными механизмами. Это означает, что один набор РНК-данных может происходить из несвязанных областей генома, что затрудняет их правильное выравнивание по референсу. Эти сайты сплайсинга не единообразны для всей человеческой популяции, а варьируются между индивидами. Также трудно определить, от какого гаплотипа происходит РНК — от набора хромосом, унаследованного от матери, или от набора, унаследованного от отца.

Но с помощью нового пайплайна инструментов с открытым исходным кодом исследователи могут взять сплайсированные сегменты РНК индивида, определить, где они выравниваются на пангеноме, идентифицировать, к какому гаплотипу принадлежат данные, и проанализировать экспрессию генов.

Сначала пайплайн определяет, из каких областей генома происходят данные РНК-секвенирования, включая сайты сплайсинга, и отмечает эти точки на референсе пангенома.
Затем эти отмеченные точки сравниваются с пантранскриптомом, состоящим из гаплотип-специфичных транскриптов, сгенерированных из референсных данных, содержащихся в пангеноме. Этот шаг требует специализированных, сложных алгоритмических методов.
Наконец, он генерирует оценки уровней экспрессии генов на основе этого сравнения между картированными данными и транскриптами в пантранскриптоме и идентифицирует, от каких гаплотипов происходят гены.

«Это определённо очень перспективное исследование, поскольку другие методы анализа экспрессии на уровне всего генома ещё не используют пангеномы и информацию о гаплотипах», — сказал Йонас Сиббесен, соавтор исследования и бывший постдок в UCSC Computational Genomics Lab, а ныне доцент Копенгагенского университета. — «Мы сейчас думаем наперёд о том, что пангеномика может дополнительно предложить для транскриптомного анализа».

В дальнейшем исследователи заинтересованы в развитии этих инструментов для использования в даунстрим биоинформатическом анализе и адаптации инструментов для особенностей исследований данных single-cell (одноклеточных). Пока же группа надеется, что их новый набор инструментов послужит демонстрацией полезности анализа на основе пангеномики.

«Нам нужно уметь объяснять некоторым исследователям, как пангеномный референс принесёт им пользу», — сказал Патен. — «Этот пайплайн — действительно первая попытка сделать это для РНК, для функциональных данных, для данных об экспрессии».

2023-01-16