Алгоритм глубокого обучения находит потенциальные терапевтические мишени во всем геноме

Исследователи из Технологического института Нью-Джерси (NJIT) и Детской больницы Филадельфии (CHOP) разработали алгоритм машинного обучения, который помогает предсказывать сайты метилирования ДНК. Этот процесс может изменять активность ДНК, не меняя её общей структуры. Алгоритм способен выявлять вызывающие болезни механизмы, которые обычно пропускаются стандартными методами скрининга.

Исследование опубликовано в журнале Nature Machine Intelligence.

Метилирование ДНК участвует во многих ключевых клеточных процессах и является важным компонентом регуляции экспрессии генов. Ошибки в метилировании могут быть связаны с различными заболеваниями человека. Хотя инструменты геномного секвенирования эффективно находят полиморфизмы, которые могут вызывать болезнь, те же методы не могут уловить эффекты метилирования, так как сами гены при этом выглядят неизменными. В частности, значительные усилия были направлены на изучение метилирования ДНК по N6-аденину (6mA) в эукариотических клетках (включая клетки человека), но, несмотря на доступность геномных данных, роль этого метилирования остаётся не до конца ясной.

Ранее разработанные методы идентификации сайтов метилирования в геноме были очень консервативными и могли анализировать лишь определённые короткие последовательности, из-за чего пропускалось большое количество таких сайтов. Требовался более эффективный инструмент для их предсказания и идентификации по всему геному.

Для решения этой проблемы команда обратилась к глубокому обучению. Профессор NJIT Чжи Вэй и его коллеги разработали алгоритм глубокого обучения Deep6mA, который предсказывает, где происходят эти события метилирования, что помогает определить их потенциальное влияние на близлежащие гены.

Deep6mA использует нейронную сеть — модель машинного обучения, которая учится подобно мозгу. Нейронные сети ранее применялись в клеточных исследованиях, но это их первое применение для изучения сайтов метилирования ДНК у многоклеточных организмов.

Авторы выделяют четыре преимущества нового метода:

Автоматизация представления признаков последовательности разного уровня детализации.
Интеграция широкого спектра фланкирующих последовательностей рядом с генами интереса.
Возможность визуализации внутренних мотивов последовательности для интерпретации.
Облегчение разработки моделей и прогнозирования для крупномасштабных геномных данных.

Алгоритм был протестирован на трёх типах организмов: A. thaliana, D. melanogaster и E. coli (первые два — эукариоты). Deep6mA смог идентифицировать сайты метилирования 6mA с разрешением до одного нуклеотида. Даже в этом первоначальном исследовании учёные смогли визуализировать регуляторные паттерны, которые не наблюдались с помощью прежних методов.

Одним из ограничений метода является то, что предсказание основано исключительно на информации о последовательности ДНК. Наличие сайта 6mA также зависит от многих других факторов, поскольку метилирование — это динамический процесс, меняющийся в зависимости от клеточного контекста. В будущем планируется учитывать и другие данные, например, об экспрессии генов.

Хотя исследование проводилось не на человеческих клетках, использованные эукариотические модели вполне сопоставимы. Этот инструмент может быть крайне полезен для учёных, стремящихся перевести фундаментальные открытия в клинические применения. Высокий уровень точности может в конечном итоге привести к открытию специфических клеток или мишеней, являющихся кандидатами для терапевтического вмешательства.

2020-08-06