Новые ИИ-модели улучшают анализ данных о белках для медицинских исследований

Исследователи разработали новые модели искусственного интеллекта, которые могут значительно повысить точность и открыть новые возможности в науке о белках. Эти модели могут помочь медицинским наукам преодолеть текущие проблемы в персонализированной медицине, открытии лекарств и диагностике.

В области биотехнологий ИИ-модели способствуют прорывам в открытии лекарств, прецизионной медицине, редактировании генов и других областях. Особенно это касается протеомики — крупномасштабного изучения белков.

В протеомике огромные массивы данных о белках собираются в базы данных, с которыми можно сравнивать образцы. Это позволяет ученым определять, какие белки (и, следовательно, микроорганизмы) присутствуют в образце, что помогает врачам диагностировать заболевания, контролировать эффективность лечения или идентифицировать патогены.

Однако у этих инструментов есть ограничения, отмечает Тимоти Патрик Дженкинс, доцент DTU Bioengineering и автор-корреспондент:

  • Ни одна база данных не включает всё, поэтому нужно знать, какие базы данных актуальны для конкретных задач.
  • Глубокий поиск требует много времени и вычислительной мощности.
  • Практически невозможно идентифицировать белки, которые еще не зарегистрированы.

Существующие алгоритмы de novo секвенирования улучшают точность и снижают вычислительные затраты, но, по мнению Дженкинса и его коллег из DTU, Делфтского университета (Нидерланды) и британской ИИ-компании InstaDeep, их производительность оставалась «неудовлетворительной».

Превышение уровня современных технологий

В новой статье в Nature Machine Intelligence исследователи предлагают две новые ИИ-модели для помощи ученым, медикам и компаниям в поиске необходимой информации в огромных массивах данных. Они называются InstaNovo и InstaNovo+ и доступны исследователям через сайт InstaDeep.

«В совокупности наши модели превосходят современные аналоги и значительно точнее доступных в настоящее время инструментов. Более того, как мы показываем в статье, наши модели не привязаны к конкретной области исследований. Эти инструменты могут способствовать значительному прогрессу во всех областях, связанных с протеомикой», — говорит Кевин Майкл Элофф, инженер-исследователь InstaDeep и соавтор статьи.

Чтобы оценить полезность своих моделей, исследователи обучили и протестировали их на нескольких конкретных задачах в ключевых областях.

1. Исследование раневой жидкости пациентов с венозными язвами голени. Поскольку такие язвы трудно поддаются лечению и часто становятся хроническими, знание о присутствующих микроорганизмах (например, бактериях) имеет решающее значение для терапии. Модели смогли определить в 10 раз больше последовательностей, чем поиск по базе данных, включая последовательности E. coli и Pseudomonas aeruginosa — последняя является мультирезистентной бактерией.

2. Анализ коротких фрагментов белка (пептидов) на поверхности клеток. Эти пептиды помогают иммунной системе распознавать инфекции и такие заболевания, как рак. Модели InstaNovo идентифицировали тысячи новых пептидов, которые не были обнаружены с помощью традиционных методов. В персонализированном лечении рака (иммунотерапии) все эти пептиды являются потенциальными мишенями для атаки.

«В совокупности наши тесты модели на сложных случаях, где, например, присутствуют неизвестные белки или у нас нет предварительных знаний об организмах, показывают, что они подходят для значительного улучшения нашего понимания. Это, безусловно, хорошо для биомедицины, поскольку может напрямую улучшить идентификацию нашего микробиома, а также наши усилия в области персонализированной медицины и иммунологии рака», — говорит Константинос Калогеропулос, соавтор и доцент DTU Bioengineering.

В статье представлены еще шесть примеров, демонстрирующих, как эти модели улучшают терапевтическое секвенирование, обнаруживают новые пептиды, выявляют незарегистрированные организмы и значительно повышают эффективность протеомных поисков.

Значение этих результатов выходит далеко за рамки медицинских наук, отмечает Тимоти Патрик Дженкинс: «С чисто технической, научной точки зрения, с помощью этих инструментов мы можем улучшить наше понимание биологического мира в целом — не только в сфере здравоохранения, но и в промышленности и академических исследованиях. В каждой области, использующей протеомику — будь то наука о растениях, ветеринария, промышленная биотехнология, экологический мониторинг или археология — мы можем получить представление о белковых ландшафтах, которые были недоступны до сих пор».

2025-03-31