Алгоритм для идентификации генов, связанных с заболеваниями

Исследователи-биоинформатики из Университета ИТМО разработали алгоритм, помогающий оценить влияние генов на процессы в организме человека, включая развитие заболеваний. Исследование опубликовано в BMC Bioinformatics.

Заболевания или предрасположенность к выпадению волос, ожирению или плохому зрению могут быть связаны с конкретными генами. Чтобы воздействовать на них и влиять на состояние человека, необходимо выявить нужный участок генома среди множества подозреваемых. Более того, для определения связи между геном и состоянием важно знать, как гены взаимодействуют между собой.

"Всего у человека более 20 000 генов. Сравнивая гены пациентов с соответствующими состояниями и гены здоровых людей, мы можем увидеть различия в активности и проявлении между образцами. На основе этой информации создаётся общий граф, показывающий взаимосвязи между всеми генами, и каждому гену присваивается весовой коэффициент. Обычно учёные продолжают работать только с наиболее активными генами, создавая из них специальный подграф. Однако, отрывая эти гены от 'общего фона', мы теряем возможность оценить корреляцию каждого гена с другими и изучаемыми диагнозами", — объясняет Алексей Сергущичев, доцент ИТМО.

Вместо того чтобы фокусироваться только на одной системе генов с наивысшим весом, биоинформатики ИТМО предложили новый метод, в котором с использованием данных всего генома генерируются сотни тысяч подграфов. Новый алгоритм, основанный на методе Монте-Карло для цепей Маркова, позволяет вычислить вероятность связи каждого образца с изучаемым состоянием и проанализировать состав образца с учётом взаимодействий между каждым геном.

"Представьте, что вы пытаетесь собрать корабль в бутылке. Вы можете использовать пинцет, а можете просто трясти бутылку. Когда детали встают на место так, как мы хотим, мы фиксируем систему в этом состоянии и продолжаем трясти. Если нам не нравится результат — начинаем заново. Рано или поздно мы получаем нечто, напоминающее корабль. Наша программа чем-то похожа. Мы удаляем один ген из набора. Если количество активных генов увеличивается, значит, мы поступили правильно, и сохраняем результат. Если нет — продолжаем. За несколько шагов весовой коэффициент может начать быстро расти. Таким образом, алгоритм производит множество графов", — объясняет Никита Алексеев, старший научный сотрудник и участник программы ITMO Fellowship and Professorship.

С такой группой образцов учёные могут выявить гены, которые появляются там чаще других. Если ген появляется в 90% таких подграфов, то учёные могут быть уверены на 90% в его связи с изучаемым состоянием.

Авторы проекта отмечают, что в будущем алгоритм может быть представлен в виде программы со слайдером, который позволит пользователям получать результаты с различным уровнем достоверности для разных целей.

"Например, чем ниже уровень достоверности, тем больше генов показывается, и наоборот. Если нам нужно идентифицировать только те гены, в которых мы уверены, мы установим уровень достоверности около 99%", — заключает Никита Алексеев.

2020-11-30