Новый алгоритм для борьбы с контаминацией ДНК в микробных образцах

Секвенирование ДНК микробных образцов даёт информацию о микробиомах — сообществах микроорганизмов в нашем теле и окружающей среде. Однако контаминация образцов ДНК из внешних источников может приводить к ложным научным выводам.

"Контаминация при секвенировании микробиома может привести к ошибочным результатам", — говорит Бен Каллахан, доцент кафедры микробиомов и микробных сообществ в NC State. — "Например, исследователи недавно думали, что обнаружили новые микробы, предсказывающие преждевременные роды, но при более глубоком изучении эти микробы оказались контаминантами".

Особенно сильно контаминация влияет на образцы с низкой биомассой (например, из дыхательных путей), так как в образцах с высокой биомассой (например, фекальных) легитимная микробная популяция подавляет контаминацию.

Каллахан и коллеги создали открытый программный пакет Decontam, который идентифицирует контаминанты с помощью статистических закономерностей их частоты и присутствия:

  • Контаминанты появляются с более высокой частотой в низкоконцентрированных образцах.
  • Контаминанты часто присутствуют в отрицательных контролях.

"Наш метод прост, быстр и экономически эффективен", — говорит Каллахан. — "Это алгоритм, использующий простой бинарный классификатор для различения контаминантов и неконтаминантов. Он не требует дополнительных данных, кроме тех, что обычно генерируются в экспериментах по секвенированию микробиома".

В тестах Decontam сократил количество последовательностей, полученных от контаминантов, более чем на 99% в данных, собранных из полости рта человека. Метод особенно эффективен для выявления и удаления обильных контаминантов, которые с наибольшей вероятностью мешают последующему анализу.

Программное обеспечение доступно здесь: github.com/benjjneb/decontam

Работа опубликована в журнале Microbiome.

2019-02-06