SPRTA: Умный способ оценки неопределенности в эволюционных деревьях

Во время пандемии COVID-19 ученые столкнулись с проблемой: построить и оценить надежность филогенетических деревьев для миллионов геномов вируса традиционными методами было невозможно.

Исследователи из Европейского института биоинформатики EMBL (EMBL-EBI) и Австралийского национального университета разработали SPRTA (SPR-based Tree Assessment) — интерпретируемый и эффективный метод оценки надежности каждой ветви в филогенетическом дереве. Это первый инструмент такого рода, масштабируемый до размеров данных пандемии.

Современная альтернатива устаревшему методу

С 1985 года для оценки достоверности филогенетических деревьев использовался метод бустрапа Фельзенштейна. Однако он требует многократного повторения анализа и слишком медлен для обработки миллионов геномов.

В статье, опубликованной в журнале Nature, представлен SPRTA — современный, масштабируемый метод, способный работать с огромными наборами данных во время вспышек заболеваний. Он позволяет быстро и надежно отслеживать распространение и эволюцию патогенов.

«Почти 40 лет ученые полагались на один и тот же метод оценки достоверности эволюционных деревьев. Но перед лицом масштаба данных пандемии COVID-19 старый метод просто не справился», — заявил Ник Голдман, руководитель группы в EMBL-EBI.

Как работает SPRTA

В отличие от традиционных методов, которые оценивают поддержку клад (групп образцов), SPRTA анализирует вероятность того, что конкретный штамм произошел от определенного предка, и какие альтернативные эволюционные пути возможны.

Метод проверяет множество сценариев, виртуально перестраивая ветви дерева и сравнивая, насколько хорошо каждый вариант соответствует данным. Затем он присваивает каждой связи простую вероятностную оценку, показывающую степень уверенности.

«SPRTA не просто ускоряет построение деревьев, но и делает его умнее. Он помогает понять, какие эволюционные связи надежны, а где следует проявить осторожность, даже при работе с миллионами геномов», — пояснил Никола Де Майо, старший научный сотрудник EMBL-EBI.

Применение к данным пандемического масштаба

На примере более двух миллионов геномов SARS-CoV-2 исследователи показали, что SPRTA может:

  • выделять высоконадежные части филогенетического дерева,
  • помечать неопределенное положение образцов (часто из-за неполных или зашумленных данных),
  • выявлять правдоподобные альтернативные происхождения для конкретных ветвей.

SPRTA встроен в два широко используемых инструмента:

  1. MAPLE — инструмент EMBL-EBI для эффективного построения крупных филогенетических деревьев.
  2. IQ-TREE — один из самых популярных пакетов филогенетического программного обеспечения.

Интеграция делает метод открытым, доступным и готовым к использованию исследователями по всему миру для отслеживания вспышек, геномного надзора и эволюционных исследований.

2025-11-05