Метод машинного обучения проливает свет на фундаментальные аспекты эволюции
Исследователи из отдела вычислительной биологии Университета Карнеги-Меллон разработали новый метод для выявления участков генома, критически важных для понимания эволюции определённых признаков у видов.
Работа, опубликованная в Science и возглавляемая доцентом Школы компьютерных наук Андреасом Пфеннингом, является частью проекта Zoonomia, цель которого — секвенировать полные геномы 240 млекопитающих. Это поможет понять фундаментальные аспекты генов и признаков, важные для защиты здоровья человека и сохранения биоразнообразия. Для анализа таких больших наборов данных требуются передовые технологии искусственного интеллекта (ИИ) и машинного обучения (МО).
Кодирующие участки ДНК (кодирующая ДНК) содержат инструкции для производства белков — ключевых регуляторов функций клетки. Со временем в этих инструкциях возникают небольшие различия, что становится одной из движущих сил эволюции.
Однако эти участки составляют лишь около 1% из трёх миллиардов пар нуклеотидов человеческого генома. Другие некодирующие регионы, известные как энхансеры, определяют, когда и где активируются конкретные гены.
Команда создала подход на основе МО под названием Tissue-Aware Conservation Inference Toolkit (TACIT), чтобы лучше понять, как работают эти области. Если традиционная модель эволюции может показать изменение размера мозга вида через набор мутаций в группе генов, то энхансеры могут просто включать или выключать гены, достигая того же результата.
Большинство исследований эволюции млекопитающих сосредоточено на частях генома, которые мало изменились за миллионы лет. Эти консервативные регионы, особенно гены, проливают свет на фундаментальные элементы ДНК млекопитающих и уникальные черты отдельных видов.
Проблема, с которой столкнулась команда Пфеннинга, заключается в том, что со временем последовательность ДНК в регионах-энхансерах может меняться, но не их функция. Например, хорошо изученный Islet-энхансер регулирует уровни генов схожим образом у людей, мышей, рыбок данио и губок, несмотря на более чем 700 миллионов лет эволюции. Это делает их гораздо более сложными для идентификации и отслеживания традиционными методами анализа отдельных нуклеотидов.
TACIT решает эту проблему, точно предсказывая, будет ли энхансер активен в определённом типе клеток или ткани. Он позволяет учёным идентифицировать эти важные регионы в недавно секвенированном геноме без проведения новых лабораторных экспериментов, что открывает возможности для применения в биологии сохранения. Инструмент может делать прогнозы о функционировании энхансеров у исчезающих или находящихся под угрозой видов, для которых лабораторные эксперименты невозможны.
«TACIT предоставляет беспрецедентную возможность предсказать функцию частей генома вне генов у видов, для которых мы не можем получить образцы первичных тканей, таких как афалина или находящийся на грани исчезновения чёрный носорог», — сказала ведущий автор статьи Ирен Каплоу, постдок и стипендиат Лейна в отделе вычислительной биологии. «По мере улучшения методов МО и методов идентификации энхансеров в конкретных типах клеток, я ожидаю, что мы сможем расширить функции TACIT для получения новых данных об эволюции млекопитающих».
После предсказания функции геномных последовательностей у 240 млекопитающих исследовательская группа применила TACIT для выявления частей генома, эволюционировавших у млекопитающих для увеличения размера мозга. Оказалось, что они, как правило, расположены рядом с генами, мутации в которых связаны с расстройствами размера мозга у человека. Также был идентифицирован энхансер, связанный с социальным поведением у млекопитающих, который специфичен для определённого подтипа нейронов — парвальбумин-положительных тормозных интернейронов.
«Мы думаем, что это лишь верхушка айсберга, — сказал Пфеннинг, старший автор исследования. — Мы нашли интересные взаимосвязи, применив TACIT к небольшому числу тканей и признаков, но предстоит открыть ещё очень многое».
