Расшифровка геномов растений в высоком разрешении
Расшифровка геномов, особенно растительных, — сложная и подверженная ошибкам задача. Это связано с наличием нескольких копий хромосом, которые очень похожи друг на друга. Команда биоинформатиков из Университета Генриха Гейне в Дюссельдорфе (HHU) разработала программный инструмент для точного отнесения участков ДНК к правильным копиям — процесса, известного как «фазировка». Результаты представлены в онлайн-издании журнала Genome Biology.
Геномы высших форм жизни хранятся в ядре клетки на хромосомах, состоящих из цепей молекулы ДНК. Генетическая информация закодирована в последовательности пар оснований: аденина (A), цитозина (C), гуанина (G) и тимина (T).
Разные виды имеют разное число хромосом: у человека — 23, у картофеля — 12, у пшеницы — 7. Кроме того, существуют разные копии или «гаплотипы» хромосом. У человека их две (диплоидный набор), у картофеля — четыре, у пшеницы — шесть (полиплоидные организмы). Небольшие различия между копиями определяют изменчивость организмов в популяции.
Для расшифровки генетической информации исследователи разбивают геномы множества клеток на множество мелких частей — «ридов» — и секвенируют их, так как современные технологии могут обрабатывать только короткие фрагменты ДНК.
В результате получается огромный массив данных — миллиарды ридов общим объёмом в сотни гигабайт, представляющих собой последовательности букв A, C, G, T. Задача биоинформатиков:
- Определить положение ридов в хромосоме («маппинг»).
- Назначить соответствующие участки хромосоме.
- Найти правильные копии хромосомы («фазировка»).
Задача усложняется ошибками секвенирования. Инструменты для маппинга существуют, а для фазировки полиплоидных геномов они находятся в зачаточном состоянии.
Именно над этим работала команда HHU под руководством профессоров Гуннара Клау, Тобиаса Маршалла и Бьёрна Узаделя в рамках проекта, поддержанного Немецким исследовательским фондом. Они разработали программный инструмент «WhatsHap polyphase» и успешно протестировали его на модельных данных и геноме картофеля.
Новый инструмент решает задачу в два этапа:
- Кластеризация ридов — разделение на группы, где риды в одной группе, вероятно, происходят из одного гаплотипа.
- «Нанизывание» гаплотипов через кластеры — равномерное распределение ридов по гаплотипам с минимальным «перескакиванием» между кластерами.
Инструмент добавлен в основной свободно доступный пакет «WhatsHap», который ранее успешно использовался для фазировки диплоидных наборов хромосом (например, у человека). Новое дополнение позволяет проводить фазировку и для полиплоидных организмов.
Проф. Гуннар Клау: «Наша новая технология позволяет проводить фазировку геномов растений с высоким разрешением и низкой погрешностью».
