Загрязнение обнаружено почти в четверти геномных баз данных

Ученые из Университета Коннектикута заявляют, что результаты могут осложнить идентификацию заболеваний у людей.

Новое геномное исследование молекулярных биологов из Университета Коннектикута показало, что не менее 22% баз данных нечеловеческих геномов загрязнены человеческой ДНК. Эти результаты предполагают, что такой же уровень загрязнения может существовать и в записях человеческого генома, что может вызвать серьезные проблемы в идентификации человеческих заболеваний.

Доцент Рэйчел О’Нилл, аспирант Марк Лонго и доцент Майкл О’Нилл с кафедры молекулярной и клеточной биологии опубликовали свои выводы в онлайн-версии журнала PLOS One.

Как обнаружили загрязнение

Марк Лонго изначально сканировал геном рыбки данио-рерио, сравнивая его с человеческим геномом в поисках ультраконсервативных областей — фрагментов ДНК, настолько древних, что они схожи у далеко родственных видов. К его удивлению, он обнаружил область ДНК, идентичную человеческой, которая не могла быть частью генома рыбы. Так он понял, что используемая база данных генома рыбы была загрязнена.

«Загрязнение в этих базах данных может происходить от кожи или волос людей, или это может быть ДНК из других библиотек последовательностей, хранящихся в том же учреждении», — говорит Лонго.

Масштабы проблемы

Исследователи собрали последовательности из всех основных мировых репозиториев ДНК, включая архивы Национального центра биотехнологической информации (NCBI), Калифорнийского университета в Санта-Круз, Объединенных баз данных генома и браузера генома Ensembl.

Используя участок ДНК, специфичный для приматов и обильный в человеческом геноме, они идентифицировали 454 нечеловеческих генома из 2027 исследованных как загрязненные человеческой ДНК.

Риск для медицинских исследований

Этот результат привел к выводу: если базы данных нечеловеческих геномов загрязнены, то многие человеческие базы данных, вероятно, тоже загрязнены. Однако обнаружить чужеродный фрагмент человеческой ДНК в базе данных человеческого генома практически невозможно.

«Если вы работаете с человеческим пазлом, это как собирать головоломку из трех миллиардов черных кусочков», — объясняет Лонго.

Это может привести к серьезным ошибкам. Например, в Национальном центре биотехнологической информации есть Атлас генома рака — библиотека, документирующая мутации в раковых клетках.

«Было бы очень неприятно узнать, что у вас есть мутация, вызывающая рак груди, когда на самом деле её нет, и это было просто загрязнение от другого образца», — говорит Рэйчел О’Нилл.

Необходимость осторожности

Ученые подчеркивают необходимость крайней осторожности при проведении секвенирования и обязательной валидации результатов в собственных лабораториях перед отправкой в базы данных. Исследователи из UConn обнаружили загрязнения даже в некоторых последовательностях, произведенных в их собственной лаборатории, которые затем были отброшены.

«Мы усугубляем эту проблему в нашей спешке двигаться вперед в геномике», — говорит О’Нилл. — «Миллионы долларов инвестируются каждый год в эти базы данных последовательностей, но мы действуем с меньшей осторожностью, чем следовало бы».

Лонго отмечает, что в его анализе единственным типом базы данных ДНК, не показавшим загрязнения, был грипп. Поскольку вирусы очень опасны, при их подготовке проявляют большую осторожность — гораздо большую, чем обычно с обычным и безвредным геномом.

«Мир секвенирования продвинулся семимильными шагами, — заключает О’Нилл. — Пришло время догнать его в вопросах валидации».

2011-02-18