Первый черновой вариант пангенома человека: новый этап для геномики

Учёные из UC Santa Cruz и консорциума HPRC представили черновой вариант первого пангенома человека — нового эталонного ресурса, который объединяет генетический материал 47 индивидов разного происхождения. Это позволит получить более глубокое и точное понимание мирового геномного разнообразия.

Пангеном добавляет 119 миллионов пар оснований к существующей эталонной последовательности, обеспечивая репрезентацию генетического разнообразия, невозможную при использовании одного референсного генома. Ресурс обладает высокой точностью, более полон и значительно улучшает детекцию вариантов в геноме человека, что показано в серии статей в журналах Nature, Genome Research, Nature Biotechnology и Nature Methods.

Преодоление ограничений одного генома

До сих пор эталонный геном в основном представлял собой одну последовательность для каждой хромосомы, полученную преимущественно от одного индивида. Это вносило систематическую ошибку (reference bias) в анализ, так как единый референс не мог отразить всё богатство генетических вариаций в популяции.

В отличие от этого, пангеном — это графовая структура, которая объединяет 47 индивидуальных геномов. В областях совпадения последовательностей он выглядит как линейный референс, а в местах различий "расширяется", одновременно представляя множество версий генома человека. Это даёт учёным более точную точку отсчёта для изучения вариаций, присутствующих в одних популяциях и отсутствующих в других.

Выявление структурных вариантов

Геномные вариации могут быть малыми (различия в одном или нескольких основаниях) или крупными структурными вариантами (≥ 50 пар оснований). До сих пор было невозможно идентифицировать более 70% структурных вариантов из-за технологических ограничений и смещения, вызванного использованием одного референса.

Из 119 миллионов новых оснований, добавленных пангеномом, примерно 90 миллионов происходят от структурных вариаций (инверсии, вставки, делеции, тандемные повторы). Использование пангенома повышает детекцию структурных вариантов на 104% по сравнению со стандартным референсом. Точность определения малых вариантов также возрастает примерно на 34%.

Технология создания

Все 47 диплоидных геномов в черновом пангеноме получены от участников проекта 1000 Genomes Project (1000G), что обеспечивает открытый доступ к ресурсу. Каждый геном содержит гаплотип-разрешённую информацию, то есть позволяет различить две родительские хромосомы (всего 94 последовательности).

Создание пангенома стало возможным благодаря:

  • Длиннопрочитывающим и ультрадлиннопрочитывающим технологиям секвенирования.
  • Развитию передовых вычислительных методов и алгоритмов для сборки и выравнивания множества последовательностей в единую графовую структуру.
  • Контролю качества: геномы имеют точность >99% и покрывают >99% каждой последовательности.

Доступность и будущее

Пангеном доступен через UCSC Genome Browser. Проект включает этическую группу, которая занимается вопросами информированного согласия, приоритизации образцов и взаимодействия с международными сообществами.

К 2024 году консорциум планирует выпустить окончательный пангеном, включающий данные 350 индивидов, с акцентом на включение недостаточно представленных популяций (Ближний Восток, Африка). Также ведётся работа над созданием международного проекта пангенома человека для обмена знаниями и технологиями с исследователями по всему миру.

2023-05-10