Один конвейер, объединяющий множество инструментов для поиска генов

Восстановление родственных связей между видами растений критически важно для понимания фундаментальных аспектов биологии растений, таких как эволюция генома, видообразование и другие области.

Однако эволюционные отношения во многих группах растений часто трудно восстановить из-за быстрой диверсификации, гибридизации и других факторов. В таких случаях для точного определения связей необходимы большие наборы данных, включающие множество генетических маркеров из ядерного и органеллярного геномов. Но разработка таких маркеров часто затруднена при отсутствии обширных геномных ресурсов, доступных лишь для малой части видов.

К счастью, прогресс в технологиях секвенирования помогает исследователям создавать большие наборы данных даже для сложных геномов. Пример — MAKER2 Annotation Pipeline, бесплатный конвейер с открытым исходным кодом, который объединяет различные биоинформатические инструменты для анализа генома (аннотации).

Используя MAKER2, исследователи из Университета штата Огайо разработали рабочий процесс для идентификации множества генетических маркеров для филогенетических исследований на основе ограниченных геномных данных. Подход, описанный в Applications in Plant Sciences, протестирован на примере рода цветковых растений Penstemon (Подорожниковые), филогению которого сложно разрешить из-за недавней быстрой радиации.

На основе данных низкого покрытия (около 0.005×-0.007×) шести образцов Penstemon, полученных с помощью секвенирования 454, исследователи использовали MAKER2 для идентификации генетических маркеров из всех трёх геномов растений. Праймеры для выбранных локусов были разработаны с помощью Primer-BLAST и Primer3Plus для последующего ПЦР-секвенирования.

Пол Д. Блишак, ведущий автор исследования, отмечает преимущества MAKER2 для разработки маркеров из данных низкого покрытия: «способность точно идентифицировать генные области, собирать всю доступную информацию (предсказания генов, результаты BLAST, границы экзонов и т.д.) для идентифицированного гена в один файл для лёгкого извлечения, а также совместимость с инструментами визуализации». Эти функции, по его словам, «облегчают исследователям выбор множества локусов, полезных для их филогенетического исследования».

Хотя многие исследователи использовали транскриптомные данные для разработки маркеров, Блишак отмечает, что использование геномных данных облегчает идентификацию интронов, которые более полезны для восстановления неглубоких или недавних эволюционных отношений.

«Нацеливание на интроны — довольно распространённый подход для разработки маркеров, который, вероятно, был бы сложнее с данными транскриптома, потому что доступны только те интроны, которые не вырезаются».

Исследование демонстрирует, как функциональность MAKER2, объединяющая множество программ в единый конвейер, может использоваться для создания масштабных наборов данных даже для геномов с крайне низким покрытием. Авторы также предоставляют пример протокола, библиотеки последовательностей, файлы функциональной аннотации и другие ресурсы.

2015-01-12