Новый ИИ-модель для прогнозирования урожайности сельхозкультур
Новая модель машинного обучения, использующая данные об окружающей среде и генетическую информацию, позволяет прогнозировать урожайность и разрабатывать новые, более продуктивные сорта сельскохозяйственных культур.
Исследование, проведенное магистрантом по статистике и аналитике Игорем Фернандесом и его научным руководителем Сэмом Фернандесом, было опубликовано в журнале Theoretical and Applied Genetics под названием "Using machine learning to combine genetic and environmental data for maize grain yield predictions across multi-environment trials".
Суть подхода
Модель Игоря Фернандеса, изначально сфокусированная на экологических данных, показала неожиданно высокую эффективность. Она заняла второе место в международном конкурсе Genome to Fields.
Исследователи сравнили этот новый подход с устоявшимися моделями прогнозирования, используемыми в геномной селекции. Геномное прогнозирование позволяет оценить урожайность растения на основе его ДНК, что экономит ресурсы при полевых испытаниях тысяч кандидатов.
Добавление в модель информации о взаимодействии растения с условиями окружающей среды (enviromics) повышает точность прогноза. Однако не было консенсуса по лучшему методу машинного обучения для комбинирования этих данных.
Результаты исследования
В работе использовались данные о посевах кукурузы от инициативы Genomes to Fields Initiative. Исследователи тестировали разные комбинации генетических и экологических данных:
- «Аддитивный» (простой) способ комбинирования.
- «Мультипликативный» (более сложный) способ.
Ключевой вывод: более простая «аддитивная» модель показала лучшую точность прогноза, чем сложная «мультипликативная». Она требовала меньше времени для обработки компьютером, а средняя точность прогноза улучшилась на 7% по сравнению с установленной моделью.
Эксперимент был проверен в трех типичных для селекции растений сценариях.
«Одна из уникальных вещей, которые сделал Игорь, — это то, как он обработал экологические данные. То, что сделал Игорь, — это простой, но эффективный способ объединения генетических и экологических данных с использованием feature engineering», — отметил Сэм Фернандес.
Результаты считаются многообещающими, особенно в свете растущего интереса к комбинированию экологических признаков и генетических данных. Ближайшая цель — применить модель для повышения эффективности скрининга генотипов для полевых испытаний.
