ИИ расшифровал новый код регуляции генов у растений и делает точные прогнозы для вновь секвенированных геномов

Технология секвенирования генома ежегодно предоставляет тысячи новых геномов растений. В сельском хозяйстве исследователи объединяют эту геномную информацию с наблюдательными данными для выявления корреляций между генетическими вариантами и признаками культур, такими как количество семян, устойчивость к грибковым инфекциям, цвет или вкус плодов.

Однако понимание того, как генетические вариации влияют на активность генов на молекулярном уровне, остается ограниченным. Этот пробел в знаниях препятствует выведению «умных культур» с улучшенным качеством и сниженным негативным воздействием на окружающую среду.

Исследователи из Института IPK Лейбница и Исследовательского центра Юлиха (FZ) добились значительного прорыва. Международная команда под руководством доктора Енджея Якуба Шиманского обучила интерпретируемые модели глубокого обучения (подмножество алгоритмов ИИ) на обширном наборе геномных данных различных видов растений.

Эти модели смогли не только точно предсказать активность генов по последовательностям, но и определить, какие части последовательности вносят вклад в эти прогнозы. Примененная технология ИИ аналогична той, что используется в компьютерном зрении для распознавания черт лица и определения эмоций.

В отличие от предыдущих подходов, основанных на статистическом обогащении, исследователи объединили идентификацию особенностей последовательности с определением количества копий mRNA в рамках математической модели. Модель была обучена с учетом биологической информации о структуре генной модели и гомологии последовательностей, то есть эволюции генов.

Эффективность поразила ученых. За несколько дней обучения модели заново открыли многие известные регуляторные последовательности и обнаружили, что около 50% выявленных особенностей были совершенно новыми. Эти модели отлично обобщали данные для видов растений, на которых они не обучались, что делает их ценными для анализа вновь секвенированных геномов.

Исследователи продемонстрировали применение метода на разнообразных сортах томатов с данными секвенирования длинными ридами. Они определили конкретные вариации регуляторных последовательностей, которые объясняли наблюдаемые различия в активности генов и, как следствие, вариации формы, цвета и устойчивости. Это значительное улучшение по сравнению с классически используемыми статистическими ассоциациями однонуклеотидных полиморфизмов.

Команда открыто поделилась своими моделями и предоставила веб-интерфейс для их использования. Интересно, что значительные усилия были направлены на ухудшение производительности модели, чтобы избежать излишне оптимистичных результатов из-за того, что ИИ находит «короткие пути». Это потребовало глубокого погружения в биологию регуляции генов для устранения потенциальных смещений, утечки данных и переобучения.

С представленными анализами можно исследовать и сравнивать регуляцию генов у растений и делать выводы об ее эволюции. Для практического применения метод также закладывает новую основу. Ученые приближаются к рутинной идентификации регуляторных элементов генов в известных и вновь секвенированных геномах растений, в различных тканях и в разных условиях окружающей среды.

2024-04-26