Более сотни экспертов предлагают создать открытую экосистему для данных молекулярного моделирования
Более ста экспертов в области молекулярного моделирования опубликовали в журнале Nature Methods статью с призывом к смене парадигмы в управлении данными молекулярной динамики (MD).
Статья, подготовленная под руководством профессора Университета Барселоны Модесто Ороско и эксперта Адама Оспиталя из Института биомедицинских исследований (IRB Barcelona), предлагает создать общую инфраструктуру для хранения и повторного использования данных в контексте революции искусственного интеллекта.
В частности, авторы выступают за внедрение принципов FAIR (findable, accessible, interoperable, reusable — находимые, доступные, совместимые, пригодные для повторного использования) для улучшения воспроизводимости расчётов и облегчения их последующего использования как источника информации о гибкости биомакромолекул.
Проблема фрагментированных данных
В отличие от структурной биологии или геномики, где хранение и обмен данными по общим стандартам — обычная практика, в области молекулярного моделирования эти данные остаются разрозненными. Они часто оказываются забытыми на персональных компьютерах, что мешает воспроизводимости расчётов и препятствует их дальнейшему использованию.
Это создаёт серьёзную проблему для интеграции данных в рабочие процессы структурной биологии и биофизики, а также замедляет развитие методов ИИ, обучение которых крайне зависит от доступа к большим объёмам динамических данных.
Повторное использование вместо повторения расчётов
Цель статьи, подписанной более чем сотней ведущих международных исследователей, включая нескольких нобелевских лауреатов по химии, — разработать открытую и устойчивую экосистему, которая умножит ценность этих данных и избежит ненужного дублирования.
«Сообщество годами считало, что повторить моделирование проще и дешевле, чем его архивировать. Но это уже не так», — говорит доктор Ороско, координатор европейского проекта MDDB.
«Знания, которые мы можем извлечь из повторного использования данных, огромны: это позволяет идентифицировать новые мишени, обучать алгоритмы ИИ или планировать новые эксперименты», — добавляет исследователь Оспиталь.
Уроки других областей
Предложение вдохновлено успехом других областей, принявших открытую науку. Protein Data Bank, собирающий трёхмерные структуры биомакромолекул с 1970-х годов, сыграл ключевую роль — не только в раскрытии функций белков и нуклеиновых кислот, но и в разработке лекарств, вакцин и новых терапий.
Данные, хранящиеся там, были ключевыми для обучения AlphaFold2, отмеченного Нобелевской премией по химии 2024 года. Авторы утверждают, что дополнение этих структурных данных динамической информацией откроет новое поле, потенциал развития которого трудно переоценить.
По мнению авторов, пришло время сообществу молекулярного моделирования принять практики, подобные практикам структурного и «омиксного» сообществ — не только сохранять данные, но и стандартизировать форматы файлов, метаданные и критерии качества.
Больше, чем просто хранилище
Подход, изложенный в статье, выходит за рамки простого хранения данных. Он предлагает интегрированную модель — от точной документации моделирований (включая условия, программное обеспечение, параметры и т.д.) до их автоматического анализа, валидации и повторного использования с помощью методов машинного обучения.
«Ценность этих данных не заканчивается с публикацией статьи или их представлением на конференции. Часто это только начало, — заключает доктор Ороско. — Мы должны относиться к данным как к общему ресурсу для науки».
Статья подготовлена в рамках европейского проекта MDDB (Molecular Dynamics Data Bank), координируемого IRB Barcelona, который направлен на создание открытой и стандартизированной базы данных для хранения динамических молекулярных симуляций.
