Как стандарты данных делают возможным повторное использование данных в науках о жизни

Минимальные информационные стандарты преобразуют неструктурированные данные из научных статей в структурированные базы данных. Это позволяет исследователям проводить анализ (data mining) по множеству наборов данных, повторно их использовать и получать новые знания.

Минимальные информационные стандарты — это руководства и форматы для представления научных данных, полученных высокопроизводительными методами (например, секвенированием генома). Они гарантируют, что все наборы данных структурированы одинаково, что облегчает их поиск, проверку и анализ исследователями по всему миру. Стандарты также предоставляют контекст для данных: например, когда, где и как они были получены или какой вид они описывают.

Публичные молекулярные базы данных, такие как управляемые EMBL, обеспечивают многократное повторное использование данных для решения новых исследовательских задач, вместо того чтобы информация «пылилась» на серверах отдельных лабораторий.

Это эффективный подход к сохранению данных, полученных за счёт государственного финансирования, делающий их легко доступными. Это похоже на превращение стопок бумаг в книги и их систематический учёт в публичной библиотеке, открытой для всех. Подобно библиотекам, публичные ресурсы данных и минимальные информационные стандарты позволяют исследователям получать доступ и использовать данные, созданные за пределами их собственных лабораторий.

Что делает минимальный информационный стандарт хорошим?

«Нужно найти баланс между возможным и практичным», — объяснил Алвис Бразма, старший руководитель группы в EMBL-EBI и соавтор одних из первых опубликованных минимальных информационных стандартов.

«Люди, генерирующие данные, вероятно, скажут, что стандарт требует слишком много информации, а те, кто их анализирует, — что её недостаточно. Поэтому им нужно встретиться посередине.

Но важно попытаться понять, что нужно для повторного анализа сейчас, и попытаться предсказать, что может понадобиться в будущем. Это непростая задача! По моему опыту, лучше начать с минимума и добавлять, когда сообщество будет вовлечено», — говорит Бразма.

Минимальные информационные стандарты обычно состоят из двух частей:

  1. Набор требований к представлению данных (часто в виде таблицы или контрольного списка).
  2. Согласованный формат данных. Информация об эксперименте должна быть преобразована в соответствующий формат для подачи в соответствующую базу данных.

Стимулирование разработки новых методов

Стандартизированные данные — ключ к разработке новых методов. Каждый биоинформатический метод исследования, будь то предсказание новых неупорядоченных белков, интерпретация эффекта модификаций белков или анализ биоимиджинговых данных, критически зависит от доступности и однозначности данных, используемых для обучения этих методов.

«Минимальные информационные стандарты предоставляют контекст, который сшивает научные результаты в непостижимую ткань "больших данных"», — сказал Сай Джеффрис, научный сотрудник EMBL в Гамбурге и куратор Банка данных биологического малоуглового рассеяния (SASBSB). — «Это означает, что результаты из разных научных дисциплин могут быть связаны вместе, повторно использованы и открыто доступны для поиска новых закономерностей, о которых мы ещё не думали, но которые может найти будущий ИИ».

«В эпоху ИИ минимальные информационные стандарты и стандартизированные базы данных важны как никогда, потому что они открывают данные для алгоритмов машинного обучения и ИИ», — пояснила Джо МакЭнтир, заместитель директора EMBL-EBI. — «Возьмем, к примеру, AlphaFold — систему ИИ от Google DeepMind, которая может точно предсказывать структуры белков. Разработка AlphaFold просто была бы невозможна без десятилетий организованных, аннотированных публичных данных о структуре и функциях белков в Protein Data Bank in Europe и UniProt. Как и во многих исследовательских методах, результат зависит от качества вложенных данных».

Множество вариантов стандартов

Ученые EMBL и их коллеги внесли вклад в разработку многих минимальных информационных стандартов для различных типов данных. Стандарты обычно следуют за развитием технологий и улучшением доступности, что приводит к увеличению объёма производимых данных.

Вот несколько примеров минимальных информационных стандартов, которые сейчас широко используются в научном сообществе:

  • MIAME (Minimum Information About a Microarray Experiment): Восходит к 2001 году, один из первых стандартов данных. Технология микрочипов использовалась для различных целей в исследованиях и клинических исследованиях, включая измерение экспрессии генов и обнаружение специфических последовательностей ДНК.
  • MIAPE (Minimum Information About a Proteomics Experiment): Разработан Инициативой по стандартам в протеомике Организации протеома человека для стандартизации сбора и распространения данных протеомики, с модулями рекомендаций по отчётности об использовании таких методов, как гель-электрофорез и масс-спектрометрия.
  • REMBI (Recommended Metadata for Biological Images): Разработан в 2021 году для обеспечения повторного использования данных микроскопии в биологии, что особенно важно, поскольку развитие технологий и улучшение доступности биоимиджинга приводят к увеличению объёма данных микроскопии.
  • MIADE (Minimum Information About Disorder Experiments): Опубликован в 2023 году для поддержки исследований белков, которые постоянно меняют свою форму. Около трети всех известных белков считаются неупорядоченными.

«Консультации с сообществом и его вовлечённость — ключ к успеху стандартов данных», — объяснила Сандра Орчард, руководитель группы контента по функциям белков в EMBL-EBI. — «Стандарт должен быть функциональным, чтобы его приняли во всём мире, и в идеале он должен поддерживаться издателями и рецензентами. И, конечно, генерация и публичное обмен исследовательскими данными должны признаваться ценным вкладом в науку наряду с другими результатами, такими как публикации, разработка программных инструментов и обмен знаниями».

Стандарты данных помогают использовать огромный объём данных, генерируемых в науках о жизни. Хотя подача результатов исследований в публичные ресурсы данных и соблюдение минимальных информационных стандартов может быть трудоёмкой и обременительной, это важный шаг в исследовательском процессе, который может помочь данным оставаться полезными ещё долго после публикации статьи.

2024-03-20