Машинное обучение выявляет «гены важности» в сельском хозяйстве и медицине

Машинное обучение может точно определять «гены важности», которые помогают сельскохозяйственным культурам расти с меньшим количеством удобрений, согласно новому исследованию, опубликованному в Nature Communications. Оно также может предсказывать дополнительные признаки у растений и исходы заболеваний у животных, демонстрируя свои применения за пределами сельского хозяйства.

Использование геномных данных для прогнозирования результатов в сельском хозяйстве и медицине — это одновременно и перспектива, и вызов для системной биологии. Точное предсказание таких сложных результатов по информации геномного масштаба остаётся серьёзной проблемой.

В исследовании учёные из NYU и их коллеги из США и Тайваня решили эту проблему с помощью машинного обучения.

«Мы показываем, что фокусировка на генах, чьи паттерны экспрессии эволюционно консервативны у разных видов, улучшает нашу способность изучать и предсказывать "гены важности" для продуктивности роста основных сельскохозяйственных культур, а также исходов заболеваний у животных», — объяснила Глория Корруцци, старший автор статьи.

«Наш подход использует естественную вариацию экспрессии в масштабе всего генома и связанных фенотипов внутри видов или между ними. Мы показываем, что сокращение геномных входных данных до генов, чьи паттерны экспрессии консервативны, — это биологически обоснованный способ снизить размерность данных, что значительно улучшает способность наших моделей машинного обучения идентифицировать, какие гены важны для признака», — добавил ведущий автор исследования Чиа-И Ченг.

В качестве доказательства концепции исследователи продемонстрировали, что гены, чья реакция на азот эволюционно консервативна между двумя разными видами растений — Arabidopsis (модельный организм) и кукурузой — значительно улучшили способность моделей машинного обучения предсказывать гены, важные для эффективности использования азота растениями. Азот — ключевой питательный элемент и основной компонент удобрений.

Исследователи экспериментально подтвердили восемь главных транскрипционных факторов как гены, важные для эффективности использования азота. Изменение экспрессии этих генов в Arabidopsis или кукурузе повышало рост растений в условиях низкого содержания азота в почве — как в лаборатории NYU, так и в полевых условиях в Университете Иллинойса.

«Теперь, когда мы можем точнее предсказывать, какие гибриды кукурузы лучше используют азотные удобрения в поле, мы можем быстро улучшить этот признак. Это снижает затраты фермеров, уменьшает загрязнение окружающей среды и смягчает выбросы парниковых газов от сельского хозяйства», — сказал соавтор Стивен Мус.

Кроме того, исследователи доказали, что этот эволюционно информированный подход машинного обучения применим к другим признакам и видам:

  • Предсказание биомассы и урожайности у Arabidopsis и кукурузы.
  • Предсказание генов, важных для устойчивости к засухе у риса.
  • Предсказание исходов заболеваний на животных с использованием моделей мышей.

«Поскольку мы показали, что наш подход применим и к животным, это подчёркивает его потенциал для выявления генов важности для любых физиологических или клинических признаков в биологии, сельском хозяйстве или медицине», — отметила Корруцци.

«Наш успех доказывает, что большие данные и системное мышление могут сделать эти notoriously трудные задачи разрешимыми», — заключил соавтор Ин Ли.

2021-09-24