Оцифровка гербариев: как данные ботанических коллекций отвечают на реальные вопросы

Несмотря на эпоху "больших данных" в ботанике, ценнейшая информация часто остаётся недоступной для компьютерного анализа, будучи запертой в физических образцах в гербариях и музеях. Гербарные образцы — это высушенные растения с этикетками, содержащими данные о виде, дате и месте сбора, описании местообитания. Эти детальные исторические записи о распространении, морфологии и даже ДНК видов представляют собой уникальный источник данных для решения морфологических, экологических, фенологических и таксономических задач. Сейчас ведутся работы по оцифровке этих данных для облегчения доступа и анализа.

Возможности и перспективы оцифровки обсуждались на двух симпозиумах: на ежегодном собрании Ботанического общества Америки в 2017 году в Форт-Уэрте (Техас, США) и на XIX Международном ботаническом конгрессе в Шэньчжэне (Китай). Материалы симпозиумов опубликованы в специальном выпуске журнала Applications in Plant Sciences. Статьи посвящены методам и вызовам извлечения данных из ботанических коллекций, а также применению оцифрованных данных. Многие авторы выпуска участвуют в проекте iDigBio (Integrated Digitized Biocollections) — национальном координирующем центре по мобилизации данных биоразнообразия.

iDigBio финансируется инициативой Национального научного фонда США (NSF) Advancing Digitization of Biodiversity Collections и уже оцифровал около 50 миллионов гербарных образцов. По словам доктора Гила Нельсона, ботаника из Университета штата Флорида и соредактора выпуска, ключевое значение проекта — в создании сообщества учёных, кураторов и менеджеров коллекций, а также в разработке и распространении лучших практик и технических навыков для этой работы. Среди серьёзных задач — "разработка методов компьютерного зрения для определения видов и оценки фенологических признаков, а также создание эффективных алгоритмов обработки естественного языка для разбора данных с этикеток".

Как показывают статьи выпуска, в решении этих задач достигается устойчивый прогресс:

  • Нельсон и др. (2018) и Контрерас (2018) рассматривают вопросы управления данными: необходимость глобальных уникальных идентификаторов для образцов и рабочий процесс оцифровки новых коллекций ископаемых листьев.
  • Ботелла и др. (2018) анализируют перспективы "компьютерного зрения" на основе нейронных сетей с глубоким обучением, которое в будущем может идентифицировать виды по изображениям.
  • Йост и др. (2018) предлагают протокол оцифровки фенологических данных (сроки цветения, плодоношения) с гербарных образцов.

Оцифровка позволяет использовать данные гербариев для решения широкого круга вопросов:

  • Джеймс и др. (2018) показывают, как оцифрованные образцы помогают отследить реакцию растений на глобальные изменения, например, смоделировать смещение ареалов.
  • Кантрилл (2018) обсуждает использование базы данных Australasian Virtual Herbarium в экологических исследованиях.
  • Тиерс и Халлинг (2018) применяют подход к грибам, используя гербарные данные как базис для определения распространения макромицетов в Северной Америке.

Оцифровка также влияет на общественное восприятие. Доктор Нельсон отмечает "растущее присутствие данных о биоразнообразии и музеях в популярной прессе, что повысило известность гербариев и других коллекций для широкой публики". В этом же ключе Конрат и др. (2018) демонстрируют, как цифровые данные гербариев можно использовать для вовлечения гражданских учёных.

За века кропотливого сбора и каталогизации ботаники создали уникальный и незаменимый банк данных в виде десятков миллионов гербарных образцов по всему миру. Превращение засушенного растения с рукописной этикеткой 1835 года в формат, умещающийся на USB-накопителе, — непростая задача. Благодаря творческому мышлению, сложным методам и упорному труду учёные переводят ценную информацию, запертую в гербарных образцах, в цифровую эпоху.

2018-04-18