Улучшенный способ поиска РНК-вирусов в базах данных

Поиск последовательностей РНК-вирусов в больших наборах данных можно сравнить с поиском одной снежинки на раскрашенной странице книги с полярными медведями.

28 сентября 2022 года в журнале Cell команда исследователей из Тель-Авивского университета (Израиль), Национального центра биотехнологической информации (NCBI) и Объединенного института генома Министерства энергетики США (DOE JGI) описала вычислительный конвейер для целенаправленного поиска последовательностей РНК-вирусов. Используя этот метод, команда проанализировала более 5000 наборов данных РНК-последовательностей (метатранскриптомов) из разнообразных образцов окружающей среды по всему миру, что привело к пятикратному увеличению известного разнообразия РНК-вирусов.

«Мир вирусов вокруг нас огромен, и теперь у нас есть средства для его изучения», — сказал Евгений Кунин (NCBI), один из старших авторов статьи. «Хотя технические задачи анализа данных такого масштаба огромны».

Вычислительные «сита» для фильтрации последовательностей

Вирусов значительно больше, чем микробов. Хотя генетическая информация большинства организмов закодирована в ДНК, РНК-вирусы хранят свою генетическую информацию в РНК, минуя ДНК-стадию.

«Я бы сказал, что РНК-вирусы в глобальном масштабе изучены даже меньше, чем ДНК-вирусы», — отметил Саймон Ру (JGI), один из руководителей проекта. «Но, как и ДНК-вирусы, они инфицируют микробы по всему миру».

Все РНК-вирусы имеют ген, кодирующий фермент РНК-зависимую РНК-полимеразу (RdRP), необходимый для репликации генома. Поиск этих «снежинок» в метатранскриптомных данных потребовал создания специальных вычислительных «сит» для отсева последовательностей, маловероятно содержащих RdRP.

Сотрудничество и масштаб

Работа стала результатом трехстороннего сотрудничества, начавшегося в 2019 году. Команда использовала все общедоступные наборы метатранскриптомных данных из системы IMG/M JGI.

«Мы рассмотрели гораздо больше образцов и усовершенствовали нашу методологию», — сказал Ури Нери (Тель-Авивский университет), первый автор исследования. «Наша команда выросла, как и масштаб проекта».

Накопленное множество последовательностей РНК-вирусов значительно меняет глобальный взгляд на разнообразие вирусов, заполняя пробелы в существующих группах и добавляя новые ветви.

Ключевые находки и будущие задачи

  • Расширение группы бактериальных вирусов: До сих пор большинство известных РНК-вирусов были связаны с эукариотами. Обнаружено, что некоторые бактерии используют систему CRISPR для защиты от РНК-вирусов, хотя это явление регистрируется редко.
  • Неравномерное распределение: РНК-вирусы, по-видимому, распределены по миру неравномерно.
  • Открытый доступ: Вся полученная информация (белковые домены вирусов, их предполагаемые хозяева) сделана свободно и открыто доступной для научного сообщества.

Параллельные исследования также сообщают о «драматическом расширении» глобального РНК-вирома.

«Теперь нам нужно сравнить и согласовать эти находки, создав единый, не избыточный набор данных», — сказал Кунин. «Надеюсь, вскоре мы сможем оценить фактический размер РНК-вирома. Однако теперь это реальные Большие Данные — мы имеем дело с миллиардами последовательностей, а вскоре и с триллионами. Разработка эффективных, автоматизированных подходов для анализа и классификации данных такого масштаба необходима».

2022-10-03