Исследователи впервые в мире использовали метод глубокого обучения для предсказания структур РНК

Впервые в мире команда исследователей из Университета Гриффита применила метод искусственного интеллекта для более точного предсказания вторичных структур РНК. Это может стать инструментом для лучшего понимания роли РНК в различных заболеваниях, включая рак.

Исследование под руководством профессора Яоци Чжоу, профессора Кулдипа Паливала, аспиранта Джасвиндера Сингха и доктора Джека Хэнсона из Института гликомики и Лаборатории обработки сигналов Университета Гриффита опубликовано в Nature Communications.

Во всех формах жизни рибонуклеиновая кислота (РНК) необходима для кодирования, декодирования, регуляции и экспрессии генов. РНК и ДНК относятся к четырем основным макромолекулам живых организмов.

Команда использовала глубокое обучение — подраздел искусственного интеллекта — для построения более точной модели взаимосвязи между последовательностью РНК и её структурой. Это позволило автоматически аппроксимировать сложные числовые функции для конкретных задач без явных инструкций человека.

Этот прорыв произошел после более чем десятилетия стагнации в эффективности предыдущих методов предсказания структур РНК.

Профессор Чжоу надеется, что новый метод будет полезен для создания новых молекул РНК с терапевтическим потенциалом.

«Несмотря на то, что количество белков более чем в 10 раз меньше количества РНК, мы не знаем, для чего нужны эти РНК в нашем теле. Поэтому мы разработали этот инструмент: чтобы получить структурные подсказки. Это очень важно, поскольку все больше РНК оказываются вовлечены в различные заболевания, включая рак.

Самое захватывающее — теперь мы можем лучше связать информацию о последовательности со структурой. Наша последовательность закодирована в геномах, но как она связана с функцией через структуру — неизвестно. Используя эту технику глубокого обучения, мы можем лучше связать последовательность со структурой и получить представление о возможной функции. Как только мы поймем, как последовательность кодирует структуру и, следовательно, функцию, мы сможем создавать РНК для конкретных целей, например, для новых лекарств или молекулярных сенсоров».

Для разработки метода команде пришлось расширить существующие наборы данных об известных структурах РНК, используя приближенные вычислительные данные, а затем уточнить метод автоматического обучения с помощью точных данных.

Профессор Паливал отметил, что доступ к менее чем 250 уникальным известным структурам РНК из примерно 30 миллионов неизвестных был проблемой, которую можно было решить только с помощью их метода глубокого обучения.

«Глубокое обучение использовалось для моделирования фундаментальной взаимосвязи между нуклеотидной последовательностью РНК и спариванием этих нуклеотидных оснований в её функциональной структуре. Это очень сложная функция, поскольку теоретически нуклеотид может спариваться с любым другим основанием внутри РНК. Задача нейронной сети — выяснить, какие нуклеотиды спарены.

До нашей работы большинство предыдущих исследований полагалось на сравнительные схемы, основанные на биологических семействах РНК, или на созданные вручную алгоритмы оценки, основанные на статистике. Эти методы могли лишь частично смоделировать невероятно сложную функцию, связывающую последовательность РНК с её структурой, и достигли стагнации с точностью предсказания спаривания оснований около 80%.

Используя глубокое обучение, мы смогли преодолеть все эти недостатки, предоставив универсальное решение для всех структур РНК, и одновременно преодолеть потолок производительности, существовавший более десяти лет, достигнув точности предсказания спаривания оснований в 93%».

Команда заявила, что использование глубокого обучения для предсказания спаривания оснований РНК является выполнимым инструментом и первым в мире, демонстрирующим превосходную производительность почти по всем параметрам по сравнению с предыдущими попытками.

Основатель и директор Института гликомики профессор Марк фон Итцштейн заявил, что это открытие «открывает новые пути для будущих исследований этой проблемы другими вычислительными группами, предоставляя более точный инструмент для экспериментальных лабораторий, работающих в таких областях, как биомедицина, открытие лекарств и молекулярная биология».

Исследование «RNA secondary structure prediction using an ensemble of two-dimensional deep neural networks and transfer learning» опубликовано в Nature Communications.

2019-11-27