Новый инструмент предсказывает трёхмерную организацию хромосом человека
Исследователи из Университета Висконсин-Мэдисон разработали вычислительный инструмент, способный точно предсказывать трёхмерные взаимодействия между участками человеческих хромосом.
Этот инструмент — большое подспорье для учёных, изучающих, как клетки контролируют активность генов. Тонкое взаимодействие между регуляторными сигналами и трёхмерной архитектурой хромосом помогает объяснить, как клетки выполняют свои ключевые функции и как этот процесс нарушается, например, при таких заболеваниях, как рак.
Экспериментальная методика измерения этих трёхмерных взаимодействий, Hi-C, является дорогостоящей, что ограничило получение высококачественных данных лишь для нескольких типов клеток. В отличие от неё, новый инструмент может предсказывать эти взаимодействия, используя гораздо более легко измеримые и общедоступные данные. Это поможет биологам проводить более детальные исследования развития тканей, рака и других заболеваний, на которые влияет такой тип дистанционной регуляции генов, для многих типов клеток.
Исследователь из UW–Madison Сушмита Рой и её аспирант Шилу Чжан возглавили работу, опубликованную 6 декабря в Nature Communications. Исследователи сделали инструмент свободно доступным для других учёных и продолжают улучшать его предсказательную силу. Инструмент назвали HiC-Reg в честь ресурсоёмких экспериментов Hi-C.
«Мы можем очень дёшево предсказать результат экспериментов Hi-C, что поможет нам расставить приоритеты для других участков генома, чтобы провести по ним более точные эксперименты», — говорит Сушмита Рой, профессор Висконсинского института открытий и факультета биостатистики и медицинской информатики UW–Madison. — «Это можно использовать как ресурс для интерпретации регуляторных вариаций в геноме».
В отличие от аккуратных прямых линий ДНК из учебников, реальные хромосомы складываются, скручиваются и изгибаются, чтобы уместить несколько линейных футов ДНК в крошечное клеточное ядро. Эти петли также сближают удалённые участки хромосомы. Некоторые из этих участков несут регуляторную информацию, которая может усиливать или подавлять экспрессию удалённых генов. Такая сложная регуляция генов увеличивает разнообразие признаков, проявляемых организмами.
Рой и другие исследователи ранее разрабатывали модели, которые могли предсказывать, будут ли взаимодействовать два удалённых участка хромосомы. HiC-Reg развивает эту модель и предсказывает не только факт взаимодействия, но и его потенциальную силу. Это даёт более сложную и реалистичную модель того, как участки хромосом взаимодействуют и потенциально регулируют экспрессию генов.
Для создания HiC-Reg команда Рой загрузила в алгоритм машинного обучения ряд общедоступных геномных данных, таких как наличие белков и химических модификаций, активирующих или подавляющих экспрессию генов. Также были включены данные Hi-C для тех немногих клеточных линий, для которых они доступны. Затем инструмент обучился взаимосвязям, что позволило ему предсказывать измерения Hi-C для новой пары геномных регионов.
«Давайте попробуем использовать данные, которые легко измерить, чтобы предсказать информацию, которую собрать сложнее», — говорит Рой.
Исследование поддержала программа Национальных институтов здравоохранения (NIH) Big Data to Knowledge, которая позволила команде анализировать эти свободно доступные, но недостаточно используемые данные.
HiC-Reg правильно предсказал от 40% до 80% региональных ассоциаций. Инструмент точнее, чем оценка силы взаимодействий только на основе хромосомного расстояния или простое перенесение карты взаимодействий для пары регионов из одной клеточной линии в другую. Однако предсказать взаимодействия для некоторых типов клеток оказалось сложнее, чем для других — это ограничение, над преодолением которого исследователи сейчас работают.
Ресурсоёмкие вычисления проводились с использованием Центра высокопроизводительных вычислений UW–Madison, Центра предиктивных вычислительных фенотипов UW и исследовательской группы Core Computational Technology в Висконсинском институте открытий.
Другие исследователи теперь могут использовать HiC-Reg «как есть» для предсказания трёхмерных взаимодействий в интересующих их клеточных линиях. Или же они могут переобучить программу на своих собственных наборах данных, чтобы повысить её точность для своей работы.
Рой отмечает, что свободный доступ соответствует вопросу, который мотивировал это исследование: «Как мы можем помочь биологам собирать эти данные?»
