Неожиданное межвидовое загрязнение в проектах по секвенированию геномов

С удешевлением и ускорением секвенирования геномов резко возросло количество геномов, загруженных в публичные архивы. Хотя эти геномы — ценный ресурс, проблемы возникают, когда исследователи ошибочно применяют вычислительные методы для их сборки или случайно вносят незамеченные загрязнения в процессе секвенирования.

Первый полный бактериальный геном (Haemophilus influenzae) появился в 1995 году. Сегодня публичная база данных GenBank содержит более 27 000 прокариотических и 1 600 эукариотических геномов. Подавляющее большинство из них — черновые сборки, содержащие пробелы в последовательностях, которые часто используются для дальнейших анализов.

Каждый проект начинается с источника ДНК, который различается в зависимости от вида. Для животных распространённым источником является кровь, а для мелких организмов, таких как насекомые, может потребоваться весь организм или популяция, чтобы получить достаточно ДНК. На всех этапах выделения и секвенирования ДНК возможна контаминация. Вычислительные фильтры для сырых прочтений обычно эффективно удаляют распространённые лабораторные загрязнители, такие как E. coli, но другие загрязнения выявить сложнее.

В новом исследовании, опубликованном в PeerJ, авторы из Университета Джонса Хопкинса обнаружили загрязняющие бактериальные и вирусные последовательности в черновых сборках геномов животных и растений, загруженных в GenBank. Это может создать особые проблемы для быстро развивающейся области анализа микробиома, когда последовательности, помеченные как животного происхождения, на самом деле оказываются микробными.

В ещё более удивительном открытии авторы обнаружили присутствие ДНК коровы и овцы в якобы завершённом геноме патогенной бактерии Neisseria gonorrhoeae. Хотя геном был загружен в GenBank как завершённый, он оказался черновым, представленным как полный, с ошибочно вставленной ДНК в пяти местах. Если воспринимать эти данные буквально, это выглядело бы поразительным случаем латерального переноса генов, но верное объяснение оказалось более прозаичным.

Эти находки подчёркивают важность тщательной проверки данных последовательностей ДНК как на момент публикации, так и, в некоторых случаях, в течение многих лет после неё.

2014-11-18