Метод сжатия данных позволяет пангеномике работать с огромными масштабами
Инженеры Калифорнийского университета разработали новую структуру данных и метод сжатия, которые позволяют пангеномике работать с беспрецедентными масштабами генетической информации. Команда под руководством профессора электротехники и вычислительной техники UC San Diego Ятиша Турахии описывает свой подход "компрессивной пангеномики" в журнале Nature Genetics.
Пангеномика — это изучение множества различных геномов одного конкретного вида, что даёт более полную картину естественной вариации и мутаций, чем использование одного референсного генома.
Проблемы современных методов
Хотя технологии секвенирования генома стали дешевле и быстрее, структуры данных и инструменты для анализа и графического представления взаимосвязей между миллионами секвенированных геномов остаются проблемой. Графовые форматы данных для пангеномов имеют большие требования к хранению и плохо масштабируются.
Команда создала новую структуру данных и формат файла — Pangenome Mutation-Annotated Network (PanMAN).
Как работает PanMAN и его преимущества
PanMAN обеспечивает беспрецедентное сжатие пангеномов и кодирует дополнительную биологически значимую информацию: филогении, мутации и полногеномные выравнивания. Этот подход позволяет проводить анализ сжатых пангеномных данных, обрабатывая гораздо большие объёмы.
PanMAN состоит из деревьев с аннотацией мутаций (PanMATs), которые хранят одну последовательность генома предка в корне и аннотируют мутации (замены, вставки, делеции) на ветвях. Несколько PanMATs соединяются в сеть (PanMAN) с помощью рёбер, которые хранят данные о сложных мутациях, таких как рекомбинация и горизонтальный перенос генов.
Это представление компактно, так как использует общее происхождение геномов, представляя каждую мутацию только один раз на ветви, где она возникла.
PanMAN может явно хранить информацию (мутации, филогению, аннотации, корневую последовательность) или позволять её выводить (последовательности предков, множественное полногеномное выравнивание, генетическую вариацию).
Исследователи использовали PanMAN для изучения микробных геномов. Метод оказался самым сжимаемым форматом среди сохраняющих вариацию пангеномных форматов, обеспечивая сжатие в сотни и даже тысячи раз.
Например, команда построила крупнейший пангеном для SARS-CoV-2, используя более 8 миллионов отдельных геномов вируса. С помощью PanMAN эти данные заняли всего 366 МБ места для хранения, что примерно в 3000 раз меньше, чем соответствующее полногеномное выравнивание, которое кодирует PanMAN. Построение такого выравнивания стало возможным благодаря другому инструменту из лаборатории Турахии — TWILIGHT.
Будущие направления
Сейчас исследователи расширяют использование TWILIGHT и PanMAN с микробов на геномы человека.
"Расширение компрессивной пангеномики на геномы человека может коренным образом изменить то, как мы храним, анализируем и делимся крупномасштабными генетическими данными человека", — сказал Турахия.
Это позволит изучать генетическое разнообразие, болезни и эволюцию человека с беспрецедентным масштабом и скоростью, а также отображать детальную эволюционную и мутационную историю, формирующую различные человеческие популяции.
