Новый ИИ-модель для прогнозирования урожайности сельхозкультур

Новая модель машинного обучения, использующая данные об окружающей среде и генетическую информацию, позволяет прогнозировать урожайность и разрабатывать новые, более продуктивные сорта сельскохозяйственных культур.

Исследование, проведенное магистрантом по статистике и аналитике Игорем Фернандесом и его научным руководителем Сэмом Фернандесом, было опубликовано в журнале Theoretical and Applied Genetics под названием "Using machine learning to combine genetic and environmental data for maize grain yield predictions across multi-environment trials".

Суть подхода

Модель Игоря Фернандеса, изначально сфокусированная на экологических данных, показала неожиданно высокую эффективность. Она заняла второе место в международном конкурсе Genome to Fields.

Исследователи сравнили этот новый подход с устоявшимися моделями прогнозирования, используемыми в геномной селекции. Геномное прогнозирование позволяет оценить урожайность растения на основе его ДНК, что экономит ресурсы при полевых испытаниях тысяч кандидатов.

Добавление в модель информации о взаимодействии растения с условиями окружающей среды (enviromics) повышает точность прогноза. Однако не было консенсуса по лучшему методу машинного обучения для комбинирования этих данных.

Результаты исследования

В работе использовались данные о посевах кукурузы от инициативы Genomes to Fields Initiative. Исследователи тестировали разные комбинации генетических и экологических данных:

  • «Аддитивный» (простой) способ комбинирования.
  • «Мультипликативный» (более сложный) способ.

Ключевой вывод: более простая «аддитивная» модель показала лучшую точность прогноза, чем сложная «мультипликативная». Она требовала меньше времени для обработки компьютером, а средняя точность прогноза улучшилась на 7% по сравнению с установленной моделью.

Эксперимент был проверен в трех типичных для селекции растений сценариях.

«Одна из уникальных вещей, которые сделал Игорь, — это то, как он обработал экологические данные. То, что сделал Игорь, — это простой, но эффективный способ объединения генетических и экологических данных с использованием feature engineering», — отметил Сэм Фернандес.

Результаты считаются многообещающими, особенно в свете растущего интереса к комбинированию экологических признаков и генетических данных. Ближайшая цель — применить модель для повышения эффективности скрининга генотипов для полевых испытаний.

2024-09-03