Сложные сети помогают найти гены для биотопливных культур
Чтобы улучшить производство биотоплива, необходимо понять фундаментальные взаимодействия, приводящие к проявлению ключевых признаков у растений и микробов. Для этого учёные используют разные уровни информации (о взаимосвязях между генами, а также между генами и фенотипами) в сочетании с новыми вычислительными подходами для интеграции огромных массивов данных в рамках моделирования. Это позволяет идентифицировать гены, контролирующие важные для производства биотоплива и биопродуктов признаки. Алгоритм, использованный в этой работе, впервые в мире позволил преодолеть экзафлопсный барьер в суперкомпьютерных вычислениях.
Этот подход позволяет анализировать массивные наборы данных с помощью экзафлопсных вычислений, где компьютеры выполняют 1018 операций в секунду. Это даёт понимание работы клеток, что можно использовать для биоинженерии полезных признаков в растениях и микроорганизмах. Возможность использовать экзафлопсные вычисления открывает перспективы для изучения высокосложных и взаимосвязанных молекулярных процессов в клетках с беспрецедентной детализацией и знаменует новую эру для системной биологии.
Биологические организмы — это сложные системы, состоящие из функциональных сетей взаимодействующих молекул и макромолекул. Сложные признаки (фенотипы) являются результатом скоординированной, иерархической и гетерогенной совокупности экспрессированных генов. Однако эффекты этих генов и их вариантов — результат исторического давления отбора, текущих средовых и эпигенетических сигналов, и их совместное проявление можно рассматривать как геномные корреляции разного типа. Рекальцитрантность биомассы (сопротивление растений деградации или деконструкции, что в конечном итоге позволяет получить доступ к сахарам растения для целей биоэнергетики) — это сложный полигенный признак, имеющий высокое значение для инициатив в области биотоплива.
Чтобы лучше понять молекулярные взаимодействия, вовлечённые в рекальцитрантность, и идентифицировать гены-мишени, участвующие в биосинтезе/деградации лигнина, в этом исследовании использовались данные повторно секвенированных геномов более 800 различных генотипов Populus trichocarpa в сочетании с метаболомными данными (концентрации метаболитов) и данными пиролитической масс-спектрометрии с молекулярно-пучковым вводом. Также учёные использовали другие формы регуляции генов, включая сети коэкспрессии, кометилирования и коэволюции.
Анализируя эти данные, команда разработала систему оценки «линий доказательств» (LOEs) для интеграции информации из разных слоёв и количественной оценки числа LOEs, связывающих гены с целевыми функциями. Эту новую систему применили для количественной оценки LOEs, связывающих гены с лигнин-ассоциированными генами и фенотипами, по всем сетевым слоям. Это позволило сгенерировать новые гипотезы о генах-кандидатах, участвующих в биосинтезе лигнина у P. trichocarpa, включая различные гены AGAMOUS-LIKE (тип транскрипционных факторов, контролирующих экспрессию других генов). Полученные сети полногеномного ассоциативного исследования (GWAS) оказываются мощным подходом для определения плейотропных (гены, влияющие на несколько фенотипов) и эпистатических (несколько генов, совместно влияющих на один фенотип) взаимосвязей, лежащих в основе клеточных функций и, следовательно, молекулярной основы сложных фенотипов, таких как рекальцитрантность.
Алгоритм в программном обеспечении CoMet, который создаёт сеть коэволюции, использованную в этом исследовании, был впоследствии портирован на новый суперкомпьютер Summit, самый быстрый и умный суперкомпьютер в мире в вычислительном центре Oak Ridge Leadership Computing. Исследовательская команда использовала CoMet для преодоления экзафлопсного барьера, достигнув пиковой производительности в 1.88 экзаопс — быстрее, чем любое ранее заявленное научное приложение — при анализе геномных данных на Summit. Этого удалось добиться, что эквивалентно выполнению почти 2 миллиардов миллиардов операций в секунду, за счёт использования смеси численных точностей на новой технологии компьютерных чипов NVIDIA — тензорных ядрах. В данном случае исследователи реализовали новый подход, использовав тензорные ядра для получения драматического увеличения производительности.
