Новый метод спектрального фенотипирования и глубокого обучения для выявления ГМ-семян риса

Зерновые культуры, важные для производства продуктов питания и биотоплива, всё чаще используют генетически модифицированные (ГМ) технологии для повышения устойчивости и питательности. Однако точные методы детекции, такие как ПЦР, сложны и требуют экспертов. В качестве более простых альтернатив для идентификации ГМ-организмов появляются передовые спектроскопические методы, включая ближнюю инфракрасную (NIR) и терагерцовую спектроскопию, которые анализируют спектральные сигнатуры.

Машинное обучение, особенно алгоритмы глубокого обучения, значительно повысило точность этих методов, хотя проблемы остаются в обработке высокоразмерных данных и понимании «чёрного ящика» глубокого обучения. Совершенствование этих методов для более широкого применения и лучшей интерпретируемости крайне важно.

В июле 2023 года Plant Phenomics опубликовал исследование «Краткие каскадные методы для дискриминации трансгенных семян риса с использованием спектрального фенотипирования».

В этом исследовании учёные сначала изучили метаболическую изменчивость в семенах риса, экспрессирующих ген cry1Ab/cry1Ac. Анализ метаболома выявил значительные различия между ГМ и не-ГМ сортами риса, причём преобладали органические кислоты, липиды и гетероциклические соединения. Спектральный анализ показал, что не-ГМ семена в целом имели более высокие значения отражательной способности, чем ГМ семена.

PCA NIR-спектров указал на сложность классификации только на основе исходных данных, подчеркнув необходимость извлечения признаков. Терагерцовые спектры, хотя и менее различимые визуально, показали заметные пики поглощения и вариации между генотипами.

Модель CascadeSeed-1, использующая NIR и терагерцовые спектры, продемонстрировала превосходную точность в различении сортов по сравнению с другими моделями машинного обучения. Для идентификации ГМ-статуса модель CascadeSeed-2 показала высокую точность для разных сортов риса, причём модели на основе терагерцовых спектров в целом превзошли модели на основе NIR.

Для улучшения модели применялись методы селекции длин волн, что позволило сократить избыточные признаки. Хотя это привело к некоторому снижению точности, оно значительно повысило скорость и эффективность модели.

Исследование подтвердило корреляцию между метаболомным и спектральным анализом: спектральные признаки отражали метаболическое содержание. Каскадный подход к моделированию эффективно распознавал трансгенные семена из разных генетических фондов и, следовательно, превосходил традиционные методы машинного обучения.

Алгоритм управляемого обратного распространения ошибки эффективно выявлял характерные длины волн, коррелирующие с конкретными метаболическими изменениями.

В заключение, в этом исследовании был разработан неинвазивный, быстрый метод идентификации ГМ-семян риса с использованием NIR и терагерцовой спектроскопии в сочетании с алгоритмами глубокого обучения.

Хотя упрощённые модели показали некоторый компромисс в точности, этот подход обещает повышенную применимость в реальных условиях для обнаружения ГМ-организмов и проведения оценки рисков.

2023-12-20