Большие данные повышают точность предсказаний в селекции растений
Большие объемы данных ("big data") открывают значительный потенциал для повышения точности геномных предсказаний в селекции растений. Воодушевленные успешными результатами с гибридами пшеницы, исследователи из Института IPK Лейбница расширили этот подход на так называемые инбредные линии.
Впервые они объединили фенотипические и генотипические данные из четырех коммерческих программ селекции пшеницы. Результаты исследования опубликованы в Plant Biotechnology Journal.
Методы глубокого обучения (deep learning) в последние годы становятся все более важными для геномного предсказания. В отличие от классических методов, подходы на основе глубокого обучения работают с гибкими, нелинейными преобразованиями входных данных. Цель — распознать закономерности в данных и связать их с наблюдаемыми признаками, такими как урожайность или высота растения.
Необходимые для этого параметры оптимизируются на основе обширных тренировочных данных. Такие методы обещают особые преимущества, когда признаки растений сильно зависят от сложных взаимодействий, недостаточно учитываемых в классических моделях.
В этом контексте исследовательская группа IPK выступила в роли академического доверенного лица по данным и объединила данные четырех селекционных программ с данными испытаний из предыдущих государственно-частных партнерств.
«Нам были нужны данные по множеству генотипов, уже испытанных в разных средах, то есть в разных локациях», — поясняет профессор д-р Йохен Райф, руководитель отдела «Селекционные исследования» в IPK.
Новый набор данных охватывал 12 лет испытаний в 168 средах и сформировал тренировочный набор для геномных предсказаний с включением до 9500 генотипов — по таким признакам, как урожайность зерна, высота растения и дата колошения. Основной задачей было объединение разнородных данных и обеспечение их сравнимости.
«Несмотря на гетерогенную фенотипическую и генотипическую информацию, нам удалось преодолеть изоляцию данных компаний и получить связуемые данные благодаря тщательной подготовке, включая импутацию отсутствующих SNP», — говорит профессор д-р Райф.
Команда использовала эти данные для сравнения классических методов геномного предсказания с подходами глубокого обучения на основе нейронных сетей. С помощью нейронных сетей удалось распознать закономерности в структурированных данных.
«Наши анализы показали, что различные испытательные серии можно гибко комбинировать для геномных предсказаний, и что точность предсказания непрерывно улучшается с увеличением размера тренировочного набора — по крайней мере, примерно до 4000 генотипов», — объясняет Мориц Лелль, первый автор исследования. При дальнейшем увеличении тренировочного набора значения предсказания растут лишь незначительно.
«Однако мы предполагаем, что это плато можно преодолеть, если включить в набор данных значительно больше сред», — подчеркивает профессор д-р Райф. «Это позволит еще лучше использовать потенциал больших данных в селекционных исследованиях».
