Глубокое обучение расшифровало код матричных РНК и их потенциал кодирования белков

Исследователи из Университета штата Орегон использовали глубокое обучение, чтобы расшифровать, какие рибонуклеиновые кислоты (РНК) обладают потенциалом кодировать белки.

Разработанная в Колледже науки и Колледже инженерии сеть с управляемыми рекуррентными нейронами — важный шаг к лучшему пониманию РНК, одной из фундаментальных и необходимых молекул жизни.

Расшифровка тайн РНК означает понимание её связи со здоровьем и болезнями человека.

Глубокое обучение, тип машинного обучения, не основанный на специфических для задачи алгоритмах, — мощный инструмент для решения этой головоломки.

"Глубокое обучение может казаться страшным для некоторых людей, но, в конце концов, это просто обработка чисел", — сказал ведущий автор исследования Дэвид Хендрикс. "Это инструмент, как и математический анализ или линейная алгебра, который мы можем использовать для изучения биологических закономерностей. Объём данных секвенирования, который у нас есть сейчас, огромен, и глубокое обучение хорошо подходит для решения проблем, связанных с этим огромным количеством данных, и для изучения новых биологических правил, которые характеризуют функцию этих молекул".

РНК транскрибируется с ДНК, другой нуклеиновой кислоты, чтобы производить белки, необходимые организму. Некоторые РНК являются функциональными молекулами, транскрибируемыми с ДНК, но не транслируемыми в белки. Они известны как некодирующие РНК.

Каждый день открываются новые РНК, и технология секвенирования генов продвинулась до такой степени, что молекулярные биологи сталкиваются с "потоком" новых аннотаций транскриптов, из которых нужно извлечь информацию.

Эти огромные наборы данных требуют новых подходов, сказал Хендрикс, доцент с двойным назначением в области биохимии/биофизики и компьютерных наук.

Хендрикс и коллеги обучили управляемую нейронную сеть на последовательностях как некодирующих, так и матричных РНК (мРНК), а затем позволили ей "самостоятельно изучить определяющие характеристики белково-кодирующих транскриптов" на данных.

Сеть справилась с этим, показав значительное улучшение по сравнению с существующими современными методами прогнозирования белково-кодирующего потенциала.

"Это действительно захватывающе", — сказал Хендрикс. "В конкурирующих программах разработчики указывали программе, что такое открытая рамка считывания, что такое старт-кодон, что такое стоп-кодон. Мы подумали, что лучше будет использовать более de novo подход, при котором нейронная сеть может учиться самостоятельно".

Кодон — это последовательность из трёх нуклеотидов. По сравнению с другими подходами, модель, разработанная командой OSU и известная как mRNN, была лучше с статистически значимым отрывом почти по каждому доступному показателю.

"Она не только находила стоп-кодоны, но и отличала настоящие стоп-кодоны от других тринуклеотидов, совпадающих со стоп-кодонами, и распознавала дальнодействующие зависимости в последовательностях", — сказал Хендрикс. "Она не ждёт, пока увидит стоп-кодон — мы обнаружили, что она принимает решение задолго до стоп-кодона, примерно через 200 нуклеотидов от старт-кодона. И она выучила подмножество кодонов, которые были высокопредсказуемы для белково-кодирующего потенциала при наблюдении в потенциальной открытой рамке считывания".

Хендрикс и коллеги назвали эти особые кодоны TICs — translation-indicating codons (кодоны, указывающие на трансляцию).

2018-07-23