Учёные разработали надёжный метод анализа кишечных бактерий
Российские учёные, включая сотрудников МФТИ, предложили новый метод сравнения метагеномных последовательностей ДНК из всех организмов в исследуемом образце биоматериала. Метод позволяет эффективнее и быстрее сравнивать образцы и легко встраивается в процесс анализа данных любого метагеномного исследования. Исследование опубликовано в журнале BMC Bioinformatics.
Бактерии, населяющие тело человека, занимают особое место в метагеномике. Клеток бактерий в нашем теле на порядок больше, чем собственных, и большинство из них находится в кишечнике. Глобальные проекты, такие как Human Microbiome Project, показали, что состав бактериального сообщества влияет на риск заболеваний, выбор оптимальной диеты, настроение и даже креативность. Верно и обратное — состав этих микроорганизмов чувствителен к процессам в организме. Сравнивая образец пациента со здоровыми кишечными метагеномами, в перспективе можно оценить риск опасных заболеваний, таких как диабет или воспалительные заболевания кишечника.
Традиционный подход к анализу метагенома — сравнение образцов на основе таксономического состава (процентного соотношения каждого обнаруженного вида микробов). Для определения состава образца его генетические последовательности сравнивают с базой данных известных бактериальных геномов — референсным набором. Однако у этого подхода есть недостатки:
- Референсные геномы часто неточны, так как их определение — вычислительно сложная задача, особенно для видов, которые трудно культивировать.
- Геномы видов, выделенных в лаборатории, могут нести набор генов, значительно отличающийся от тех же видов в естественной среде.
- Не все организмы собраны в референсных геномах (например, вирусы).
Поэтому часть последовательности образца, не совпадающая с референсным образцом, не учитывается в анализе, хотя может быть значительной. Метод, основанный на сравнении частот k-меров, не требует обращения к референсному образцу или какой-либо информации об изучаемых организмах; анализу подвергаются все последовательности в образце, что даёт лучшие результаты.
Метод основан на представлении геномной последовательности организма как множества всех "слов" из нуклеотидов заданной длины "k", называемых k-мерами. Поскольку геном — уникальная последовательность для каждого организма, наборы таких "слов" также различаются. Таким образом, множество всех k-меров для метагенома можно рассматривать как набор множеств составляющих его организмов. Это позволяет оценить различия в бактериальном составе при сравнении образцов.
Для проверки эффективности техники k-меров по сравнению с традиционными подходами использовали два набора метагеномных данных — набор реальных данных и набор искусственно сгенерированных данных. Искусственные данные (созданные из геномов с заранее известными пропорциями) удобны для тестирования метода, так как последовательность точно известна, и результаты можно оценить, сравнив с априори верным значением. В качестве реальных данных использовали кишечные метагеномы жителей США и Китая.
Известно, что бактериальные кишечные сообщества значительно различаются между популяциями, и алгоритмы должны выявлять именно те показатели, которые показывают разницу в составе. Поэтому критерием оценки эффективности метода была степень, в которой метагеномы можно различить — то, насколько китайские метагеномы в целом отличаются от американских.
Метод показал лучшие результаты на обоих типах данных при сравнении k-меров, чем при использовании традиционного картирования с референсным набором. Кроме того, при работе с реальными данными несоответствие результатов для k-меров и традиционных подходов позволило исследователям обнаружить ещё один важный компонент кишечного метагенома — бактериофаг crAssphage, который ускользнул от внимания исследователей, использовавших традиционный метод.
Автор статьи Дмитрий Алексеев отмечает: "Интересно, что гены можно рассматривать не только как сегменты ДНК с закодированными в них белками, но и как информацию в целом. Именно это информационное различие позволило нам выявить новые сегменты ДНК, не описанные в каталоге известных генов. Интересно посмотреть, как этот подход будет использоваться другими исследовательскими группами".
Техника позволяет исследователям эффективнее и точнее находить различия между метагеномами для различных бактериальных сообществ, что может помочь в изучении, диагностике и лечении многих заболеваний человека.
