Геном человека наконец-то завершён

Два десятилетия назад, когда учёные объявили о завершении проекта «Геном человека», их заявление было несколько преждевременным. Хотя был достигнут важный рубеж, и исследователи получили доступ к последовательности ДНК большинства кодирующих белки генов, даже после 20 лет доработок 8% нашего генома оставались несеквенированными и неизученными. Примерно 151 миллион пар оснований, разбросанных по геному, оставались «чёрным ящиком».

Теперь крупная международная команда под руководством Адама Филиппи из Национальных институтов здоровья (NIH) представила последние 8% генома человека в статье, опубликованной в Science. Эти долго отсутствовавшие фрагменты содержат не просто «мусорную ДНК». В новых данных обнаружены загадочные участки некодирующей ДНК, которые не производят белки, но играют ключевые роли во многих клеточных функциях и могут лежать в основе таких состояний, как рак, когда деление клеток выходит из-под контроля.

«Вы могли бы подумать, что раз 92% генома были завершены давно, оставшиеся 8% не внесут большого вклада. Но из этих недостающих 8% мы теперь получаем совершенно новое понимание того, как делятся клетки, позволяя изучать ряд заболеваний, к которым у нас раньше не было доступа», — говорит Эрих Д. Джарвис из Рокфеллеровского университета, соавтор исследования.

На плечах проекта «Геном человека»

Проект «Геном человека» дал ключи к эухроматину — большей части генома, богатой генами, слабо упакованной и активно производящей РНК. Однако нетронутым остался лабиринт плотно свёрнутого, повторяющегося гетерохроматина — меньшей части генома, не производящей белки.

Учёные изначально отложили изучение гетерохроматина, так как эухроматические регионы содержали больше генов и были проще для секвенирования. В результате в знаниях о базовых клеточных функциях остался значительный пробел. Последовательности гетерохроматина в центромерах (участках хромосом, управляющих делением клетки) в референсном геноме человека были отмечены длинными последовательностями N (неизвестное основание). Также были пропущены последовательности коротких плеч хромосом 13, 14, 15, 21 и 22.

Около десяти лет назад начали развиваться новые методы получения длинных чтений последовательностей, заполняющих пробелы. Одной из таких инициатив является Vertebrate Genomes Project под руководством Джарвиса.

«По сравнению с методами двадцатилетней давности, современная геномика имеет высокоточные длинные чтения с точностью 99,9%, лучшие инструменты сборки генома и более мощные алгоритмы», — отмечает Джарвис.

С обновлёнными инструментами учёные смогли завершить начатое проектом «Геном человека» и описать по-настоящему полный геном человека — с пересмотренными эухроматическими регионами и полностью представленным гетерохроматином.

«Это большое дело. Каждая отдельная пара оснований генома человека теперь завершена», — говорит Джарвис.

Знакомство с Merfin

Флагманское исследование в Science возглавил консорциум Telomere-to-Telomere (T2T). Вклад лаборатории Джарвиса, опубликованный в Nature Methods, заключался в предоставлении инструментов для очистки «грязных» последовательностей генома.

Один из этих инструментов — Merfin, разработанный для очистки самых сложных последовательностей.

«Геномы, которые мы генерируем в лаборатории, могут содержать множество ошибок. Если ошибочна даже одна или несколько пар оснований, это может иметь большие последствия для общей точности геномной последовательности», — говорит Джулио Форменти, постдок в лаборатории Джарвиса.

Merfin проверяет точность последовательности, находит ошибочный код и автоматически исправляет ошибки. Он особенно полезен для участков с идентичными парами оснований (например, AAA), которые сложно оценить существующим технологиям.

Джарвис и Форменти надеются, что их вклад не только завершит проект «Геном человека», но и поможет в исследованиях болезней, связанных с гетерохроматином, — прежде всего рака, ассоциированного с аномалиями центромер.

«Мы наконец-то копаемся в том, что когда-то называли мусорной ДНК, потому что не могли её понять или точно изучить. Теперь мы знаем, что многие болезни связаны со структурными повторами в центромере, и, поскольку эти последовательности больше не отсутствуют в референсном геноме человека, мы можем начать картировать истоки этих заболеваний», — говорит Форменти.

2022-03-31