Интеграция и визуализация первичных данных о биоразнообразии из текущей и архивной таксономической литературы

XML-разметка таксономических исследований и данных о коллекционных образцах — ценный инструмент для структурирования непрерывно накапливаемых знаний о биоразнообразии. Она позволяет комплексно использовать фрагментированную в настоящее время информацию для более детального анализа.

Новое исследование, опубликованное в Biodiversity Data Journal, демонстрирует, как XML-разметка с помощью GoldenGATE решает проблемы, связанные с неструктурированными архивными данными, например, в широко используемом формате PDF. В работе показано, как структурированные первичные данные о биоразнообразии можно извлекать из таких источников, агрегировать и совместно запрашивать с данными из других источников, совместимых со стандартом Darwin Core, а также визуализировать для передачи ключевой информации из научной литературы.

Данные о коллекционных образцах в таксономической литературе относятся к первичным данным о биоразнообразии высочайшего качества. Инновационные кибертаксономические журналы, такие как Biodiversity Data Journal, используют рабочие процессы, которые сохраняют структуру и семантическую специфику данных, распространяя электронный контент среди агрегаторов и других пользователей для повторного использования.

Однако в традиционной таксономической публикации такая структура теряется, и доступ к этому ресурсу в настоящее время затруднён, особенно для неспециалистов.

Вопрос в том, как управлять этим обширным распределённым хранилищем знаний о биоразнообразии, чтобы сделать его легко доступным и пригодным для повторного использования в будущих исследованиях?

Для решения этой задачи проект выполнил запросы к XML-структурированным статьям из Biodiversity Data Journal вместе с исторической таксономической литературой, размеченной с помощью GoldenGATE, и представил результаты в виде серии стандартных диаграмм. XML-структурированные документы поддерживаются швейцарской НПО Plazi и находятся в свободном доступе онлайн.

В такой форме данные, связанные с образцами, становятся гораздо ценнее, поскольку могут раскрывать ключевую информацию о конкретном виде и даже об учёных, которые его исследуют. Диаграммы позволяют с первого взгляда увидеть, например, в какое время года и в каком диапазоне высот вероятнее всего найти вид, что полезно для полевых исследований.

Накопленные знания о биоразнообразии включают, по оценкам, 2–3 миллиарда образцов в естественнонаучных коллекциях и 500 миллионов страниц печатного текста. Именно эти данные необходимы для ответа на вопросы, актуальные для современного мира, такие как определение приоритетов сохранения и прогнозирование влияния изменения климата на биоразнообразие и функции экосистем, от которых зависит жизнь людей.

«Короче говоря, у нас есть полмиллиарда страниц знаний о биоразнообразии, и мы только учимся их запрашивать. Реальная сила проявляется, когда данные из многих статей объединяются, запрашиваются и повторно используются для новых целей. Потенциальные области применения охватывают научную, политическую и общественную сферы. Когда у всех нас будет лучший доступ к информации, уже существующей в глобальном корпусе литературы по биоразнообразию, это поможет нам лучше исследовать неизвестное и мудро применять известное», — объясняет ведущий автор доктор Джереми Миллер из Naturalis Biodiversity Center.

2015-05-15