Как быстро и эффективно анализировать огромные генетические данные для исследований коронавируса

Благодаря развитию технологий секвенирования стало возможным получать огромные объёмы данных о геноме различных видов. Ключевое значение имеет анализ пангеномных данных — полного набора генов, присутствующих у всех представителей определённого вида, особенно в исследованиях бактерий и вирусов, механизмов лекарственной устойчивости и разработке вакцин. Например, почему коронавирус устойчив к обычным лекарствам? Могут ли большие данные помочь быстро определить характеристики новых штаммов вируса? Группа исследователей в рамках финансируемого ЕС проекта PANGAIA решает эту задачу, разрабатывая методы сравнения гигантских наборов генетических данных.

Как поясняется в пресс-релизе партнёра проекта, Университета Билефельда, учёные часто используют референсный (эталонный) геном, чтобы определить, есть ли в генетическом материале организма определённые вариации. «Они объединяют несколько геномов таким образом, чтобы они демонстрировали типичные характеристики целого вида. Это позволяет исследователям сравнивать новый вирус гриппа с референсным геномом, который суммирует типичные черты штаммов вируса, от которых он произошёл».

Профессор Йенс Штойе из Университета Билефельда отмечает: «В таких случаях мы сравниваем только два генома друг с другом — различия и сходства относительно легко определить на компьютере». Он добавляет: «С новым подходом мы можем сравнить один геном с тысячами других геномов за один шаг». Этот процесс связан с пангеномикой. «Новая технология позволяет проводить одновременный интегрированный анализ многих штаммов одного и того же организма. Это могут быть вирусы, бактерии, а иногда и высшие организмы». Профессор Штойе продолжает: «Это позволяет выделить сходства и различия между отдельными представителями. В случае патогенов часто даже можно понять и предсказать процессы, которые привели к появлению особенно заразных штаммов».

Генетические аномалии

Согласно тому же пресс-релизу, новый метод также можно использовать для выявления наследственных заболеваний у людей или определения генетических аномалий. «В течение следующих нескольких лет мы хотим вместе с нашими партнёрами по проекту разработать новые алгоритмы и структуры данных, которые сделают компьютерную пангеномику быстрее и удобнее для пользователя», — говорит профессор Александр Шёнхут, также из Университета Билефельда. Команда проекта надеется разработать алгоритмы, при которых компьютеры будут искать сходства и различия между сравниваемыми геномами и представлять результаты с помощью графов вариаций. Эти представления позволяют исследователям «выявлять совершенно новые мутации, такие как те, которые, предположительно, произошли в варианте коронавируса», вспыхнувшего в Китае и которые «привели к устойчивости к обычным лекарствам», как отмечает профессор Шёнхут.

Текущий проект PANGAIA (Pan-genome Graph Algorithms and Data Integration) продлится до конца декабря 2023 года. Он будет сосредоточен на графовых представлениях больших наборов геномных данных и продемонстрирует их преимущества перед традиционными последовательностными представлениями пангеномных данных. «В этом проекте мы полностью реализуем эту смену парадигмы — от последовательностных к графовым представлениям геномов», — как указано на CORDIS. «В результате мы можем ожидать множество практически значимых преимуществ, среди которых упорядочение, анализ, сжатие, интеграция и использование геномных данных являются наиболее фундаментальными пунктами».

2020-03-31