Учёные могут собирать целые геномы на персональных компьютерах за минуты

Учёные из Массачусетского технологического института (MIT) и Института Пастера во Франции разработали метод реконструкции целых геномов, включая человеческий, на персональном компьютере. Этот метод примерно в сто раз быстрее современных передовых подходов и использует в пять раз меньше ресурсов. Исследование, опубликованное 14 сентября в журнале Cell Systems, позволяет более компактно представлять данные генома, вдохновляясь тем, как слова, а не буквы, предлагают сжатые строительные блоки для языковых моделей.

"Мы можем быстро собирать целые геномы и метагеномы, включая микробные геномы, на скромном ноутбуке", — говорит Бонни Бергер, профессор математики в Лаборатории компьютерных наук и искусственного интеллекта MIT и автор исследования. — "Эта способность необходима для оценки изменений в микробиоме кишечника, связанных с болезнями и бактериальными инфекциями, такими как сепсис, чтобы мы могли быстрее их лечить и спасать жизни".

Проекты сборки геномов прошли долгий путь со времён проекта "Геном человека", который завершил сборку первого полного генома человека в 2003 году стоимостью около 2,7 миллиарда долларов и более чем десятилетием международного сотрудничества. Но хотя проекты сборки человеческого генома больше не занимают годы, они всё ещё требуют несколько дней и огромных вычислительных мощностей. Технологии секвенирования третьего поколения предлагают терабайты высококачественных геномных последовательностей с десятками тысяч пар оснований, однако сборка генома с использованием такого огромного количества данных оказалась сложной задачей.

Чтобы подойти к сборке генома более эффективно, чем современные методы, которые включают попарные сравнения всех возможных пар прочтений (reads), Бергер и коллеги обратились к языковым моделям. Развивая концепцию графа де Брейна — простой и эффективной структуры данных, используемой для сборки генома, — исследователи разработали граф де Брейна в пространстве минимизаторов (minimizer-space de Bruijn graph, mdBG), который использует короткие последовательности нуклеотидов, называемые минимизаторами, вместо отдельных нуклеотидов.

"Наши графы де Брейна в пространстве минимизаторов хранят лишь небольшую часть от общего числа нуклеотидов, сохраняя при этом общую структуру генома, что позволяет им быть на порядки эффективнее классических графов де Брейна", — говорит Бергер.

Исследователи применили свой метод для сборки реальных данных HiFi (обладающих почти идеальной точностью прочтения одной молекулы) для плодовых мушек Drosophila melanogaster, а также данных генома человека от Pacific Biosciences (PacBio). При оценке полученных геномов Бергер и коллеги обнаружили, что их программное обеспечение на основе mdBG требовало примерно в 33 раза меньше времени и в 8 раз меньше оперативной памяти (RAM), чем другие сборщики геномов. Их ПО выполнило сборку генома для данных HiFi человека в 81 раз быстрее при в 18 раз меньшем использовании памяти, чем сборщик Peregrine, и в 338 раз быстрее при в 19 раз меньшем использовании памяти, чем сборщик hifiasm.

Далее Бергер и коллеги использовали свой метод для построения индекса для коллекции из 661 406 бактериальных геномов — крупнейшей на сегодняшний день коллекции такого рода. Они обнаружили, что новая техника может выполнить поиск по всей коллекции на наличие генов устойчивости к антимикробным препаратам за 13 минут — процесс, который занял 7 часов при использовании стандартного выравнивания последовательностей.

"Мы знали, что наше представление эффективно, но не ожидали, что оно будет так хорошо масштабироваться на реальных данных после дальнейшей оптимизации кода", — говорит Бергер.

"Основная идея просто работает и не требует некоторых обычно дорогостоящих этапов предварительной обработки, таких как коррекция ошибок, выполняемая большинством других методов сборки генома", — говорит Райан Шихи, исследователь и руководитель группы в Институте Пастера, автор исследования.

"Мы также можем обрабатывать данные секвенирования с уровнем ошибок до 4%", — добавляет Бергер. — "Поскольку стоимость длинночитающих секвенаторов с разным уровнем ошибок быстро снижается, эта возможность открывает путь к демократизации анализа данных секвенирования".

Бергер отмечает, что хотя в настоящее время метод лучше всего работает при обработке прочтений PacBio HiFi, уровень ошибок которых значительно ниже 1%, вскоре он может стать совместимым с ультрадлинными прочтениями от Oxford Nanopore, где текущий уровень ошибок составляет 5–12%, но вскоре могут появиться прочтения с уровнем 4%.

"Мы планируем обратиться к полевым учёным, чтобы помочь им создать быстрые площадки для геномного тестирования, выходящие за рамки ПЦР и маркерных матриц, которые могут упускать важные различия между геномами", — говорит Бергер.

2021-09-14