Модель машинного обучения для исследования метилирования ДНК
Исследователи Northwestern Medicine разработали модель машинного обучения, которая предсказывает статус метилирования ДНК в циркулирующей бесклеточной ДНК по её паттернам фрагментации. Результаты опубликованы в Nature Communications.
Метилирование ДНК — биологический процесс добавления метильных групп к молекуле ДНК — действует как «выключатель» для определённых генов и часто нарушается при таких заболеваниях, как рак.
Бесклеточную ДНК — небольшие фрагменты ДНК, оставшиеся от различных клеточных процессов, — обычно анализируют с помощью бисульфитного секвенирования всего генома. Это «золотой стандарт», но неидеальный процесс, который может повреждать ДНК и ограничивать её изучение.
«Бесклеточная ДНК — это короткие фрагменты: когда клетка умирает, она высвобождает ДНК в кровь, — объяснил Япин Лю, доктор философии, первый и соавтор-корреспондент исследования. — Эта ДНК, находящаяся вне клетки, отражает сигнатуры гибели клеток».
В отличие от нормальной ДНК, бесклеточная ДНК распадается по специфическим паттернам, которые сильно коррелируют с эпигенетическим статусом. Это натолкнуло Лю на мысль использовать паттерны фрагментации для предсказания уровня метилирования ДНК.
В исследовании Лю и его коллеги обучили неконтролируемую модель машинного обучения анализировать небольшие участки ДНК, называемые CpG-сайтами, используя характеристики фрагментов циркулирующей бесклеточной ДНК.
Затем модель протестировали на образцах крови здоровых людей и пациентов с разными типами рака. Для сравнения точности модели с каждым образцом провели отдельное полногеномное секвенирование.
Модель точно предсказывала статус метилирования ДНК, в основном в богатых CpG-участках генома, по сравнению с традиционным секвенированием.
«Клиницисты уже сегодня генерируют много данных полногеномного секвенирования бесклеточной ДНК с помощью доступных тестов, — сказал Лю. — С нашей моделью мы можем извлечь из этих данных больше и предсказать метилирование ДНК и изменения, происходящие в наших генах».
Модель также точно определяла, из каких тканей произошла бесклеточная ДНК, что позволяет установить источник аномальных сигнатур метилирования, возникающих при различных онкологических заболеваниях.
В дальнейшем лаборатория Лю продолжит разработку вычислительных методов для лучшего понимания информации о регуляции генов из фрагментов бесклеточной ДНК.
«Наша цель — использовать эпигенетическую информацию, скрытую в бесклеточной ДНК, для понимания некодирующих областей человеческого генома, — сказал Лю. — Мы хотим не только раньше обнаруживать болезнь, но и получить возможность понять, что происходит в геноме в этот момент времени».
