Модель машинного обучения для исследования метилирования ДНК

Исследователи Northwestern Medicine разработали модель машинного обучения, которая предсказывает статус метилирования ДНК в циркулирующей бесклеточной ДНК по её паттернам фрагментации. Результаты опубликованы в Nature Communications.

Метилирование ДНК — биологический процесс добавления метильных групп к молекуле ДНК — действует как «выключатель» для определённых генов и часто нарушается при таких заболеваниях, как рак.

Бесклеточную ДНК — небольшие фрагменты ДНК, оставшиеся от различных клеточных процессов, — обычно анализируют с помощью бисульфитного секвенирования всего генома. Это «золотой стандарт», но неидеальный процесс, который может повреждать ДНК и ограничивать её изучение.

«Бесклеточная ДНК — это короткие фрагменты: когда клетка умирает, она высвобождает ДНК в кровь, — объяснил Япин Лю, доктор философии, первый и соавтор-корреспондент исследования. — Эта ДНК, находящаяся вне клетки, отражает сигнатуры гибели клеток».

В отличие от нормальной ДНК, бесклеточная ДНК распадается по специфическим паттернам, которые сильно коррелируют с эпигенетическим статусом. Это натолкнуло Лю на мысль использовать паттерны фрагментации для предсказания уровня метилирования ДНК.

В исследовании Лю и его коллеги обучили неконтролируемую модель машинного обучения анализировать небольшие участки ДНК, называемые CpG-сайтами, используя характеристики фрагментов циркулирующей бесклеточной ДНК.

Затем модель протестировали на образцах крови здоровых людей и пациентов с разными типами рака. Для сравнения точности модели с каждым образцом провели отдельное полногеномное секвенирование.

Модель точно предсказывала статус метилирования ДНК, в основном в богатых CpG-участках генома, по сравнению с традиционным секвенированием.

«Клиницисты уже сегодня генерируют много данных полногеномного секвенирования бесклеточной ДНК с помощью доступных тестов, — сказал Лю. — С нашей моделью мы можем извлечь из этих данных больше и предсказать метилирование ДНК и изменения, происходящие в наших генах».

Модель также точно определяла, из каких тканей произошла бесклеточная ДНК, что позволяет установить источник аномальных сигнатур метилирования, возникающих при различных онкологических заболеваниях.

В дальнейшем лаборатория Лю продолжит разработку вычислительных методов для лучшего понимания информации о регуляции генов из фрагментов бесклеточной ДНК.

«Наша цель — использовать эпигенетическую информацию, скрытую в бесклеточной ДНК, для понимания некодирующих областей человеческого генома, — сказал Лю. — Мы хотим не только раньше обнаруживать болезнь, но и получить возможность понять, что происходит в геноме в этот момент времени».

2024-04-12