Расшифровка листа: учёные ищут признаки для идентификации современных и ископаемых листьев

Машинное обучение, способное классифицировать листья по биологическим семействам, может открыть новые ключи к эволюции растений. Но это возможно, только если учёные поймут, что именно «видит» компьютер. Команда учёных из Penn State объединила подход машинного обучения с традиционным ботаническим языком, чтобы найти и описать новые признаки для идентификации ископаемых листьев.

Команда взяла тепловые карты (heat maps), созданные программами машинного обучения — изображения листьев, покрытые красными метками, которые выделяют области, важные для идентификации. На их основе был разработан ручной метод оценки этих областей для разных семейств растений.

Каждое семейство имело уникальный набор признаков, выделенных тепловыми картами. Эти признаки дают новые зацепки для идентификации ископаемых листьев, хотя напрямую использовать их для определения окаменелостей пока нельзя.

Листья — самая распространённая немикроскопическая часть растений как сегодня, так и в палеонтологической летописи, но их сложнее всего идентифицировать. Вариации формы и жилкования (venation) слишком сложны для описания традиционной ботанической терминологией. Это особенно трудно для палеоботаников, которые часто находят изолированные ископаемые листья без семян, плодов или цветов, помогающих в определении.

Эволюционная история и летопись окаменелостей плохо изучены даже для некоторых важнейших современных семейств растений. Миллионы ископаемых листьев в музейных коллекциях по всему миру не могут быть идентифицированы из-за отсутствия чётко определённых признаков.

Описание одного листа обученным исследователем может занять часы, тогда как компьютерные программы могут быстро и точно научиться различать листья и сортировать их по таксономическим семействам.

В предыдущем исследовании с использованием машинного обучения было проанализировано более 7500 изображений просветлённых листьев (cleared leaves) — образцов, химически отбеленных и окрашенных для выявления жилкования. Программа классифицировала листья по семействам с точностью 72% и создала тепловые карты, показывающие важные для идентификации области.

В новом исследовании Эдвард Спаньуоло проанализировал более 3000 тепловых карт, содержащих листья 930 родов из 14 семейств покрытосеменных (angiosperm) растений. Он оценил области с наибольшей активностью (top-five и top-one hot spot regions) и описал их расположение на листьях с помощью традиционного ботанического языка.

Это, по словам учёных, первая попытка «обратного перевода» и интерпретации тепловых карт компьютерного зрения на ботанический язык. Результаты опубликованы в American Journal of Botany.

Некоторые семейства, например Rosaceae (включая яблони, клубнику, сливы), имеют отличительные черты (узкие зубцы), которые легко распознаются. Тепловые карты для них подтверждают традиционные наблюдения.

Другие семейства, например Rubiaceae (кофейное дерево), не имеют отличительных признаков и часто не идентифицируются в ископаемой летописи. Для таких листьев без зубцов компьютер указал на микрокривизну малоизученных краёв листа.

Эти новые признаки могут привести к дополнительным исследованиям и, в конечном итоге, к выявлению новых диагностических характеристик для ископаемых. Это поможет раскрыть огромный массив «эволюционных тёмных данных», который пока остаётся неиспользованным.

2022-05-13