Математика ускоряет картирование генной активности в 100 раз

Новое исследование учёных UCSF может ускорить — в 10–100 раз — профилирование генной активности. Это касается как фундаментальных исследований (например, создания тканей из стволовых клеток), так и клинических задач, таких как обнаружение рака или аутоиммунных заболеваний путём анализа отдельных клеток в крошечной капле крови.

Исследование, опубликованное 27 апреля 2016 года в журнале Cell Systems, показывает, как извлекать высококачественную информацию о паттернах экспрессии генов в отдельных клетках, не прибегая к дорогостоящему и медленному глубокому секвенированию. Старшие авторы работы — Хана Эль-Самад, PhD, и Мэтт Томсон, PhD.

«Мы считаем, что последствия огромны из-за фундаментального компромисса между глубиной секвенирования и пропускной способностью, или стоимостью», — сказала Эль-Самад. — «Например, теперь можно представить себе профилирование целой опухоли на уровне отдельных клеток».

Исследование объединило несколько дисциплин

Работа стала результатом сотрудничества со-первых авторов: Грэма Хеймберга (биоинформатика) и Раджата Бхатнагара, PhD (прикладная математика и электротехника). Их объединённый опыт позволил применить инженерные идеи об извлечении ключевой информации из зашумлённых сигналов к биологической проблеме эффективного анализа крупномасштабных данных об активности генов.

Основная идея исследователей: поскольку каждый ген в клетке обычно является частью одной или нескольких более крупных генетических программ (групп из десятков или сотен связанных генов, которые регулярно активируются вместе), полные данные глубокого секвенирования полны избыточной информации. Для многих современных приложений, где важнее паттерны активности, чем отдельные гены, те же результаты можно извлечь из данных гораздо более низкого разрешения.

«Мы ни в коем случае не говорим, что глубокое секвенирование бесполезно», — сказал Томсон. — «Это удивительный инструмент для получения конкретной молекулярной информации об отдельных генах и мутациях. Мы просто указываем, что при правильном анализе неглубокое секвенирование может быть гораздо быстрее и дешевле для извлечения информации об экспрессии генов на уровне клеток».

Чтобы доказать свою точку зрения, исследователи проанализировали сотни общедоступных баз данных экспрессии генов, полученных из дрожжей, мышей и людей. Они показали, что для таких распространённых задач, как определение типа ткани или выделение различных типов нейронов по характерным паттернам генной активности, правильный математический анализ может извлечь необходимую информацию из 10–100 тысяч прочтений (reads), а не из миллионов, которые составляют глубокое секвенирование.

Исследователи пошли дальше, создав теоретическую основу, которая демонстрирует, насколько глубоким должно быть секвенирование для получения конкретного уровня детализации. Основной вывод: «доминирование» данной генетической программы в наборе данных определяет необходимую глубину секвенирования для её выявления. Крупные черты легко различимы, а детали требуют более высокого разрешения.

Секвенирование низкого разрешения может ускорить обнаружение рака

Суть новой работы в том, что поток секвенирования можно ускорить в десятки и сотни раз для многих геномных приложений, где важны именно общие черты экспрессии генов. Это может включать:

Скрининг крови на отдельные клетки, которые могут стать раковыми.
Выявление генетических путей, контролирующих рост стволовых клеток.
Создание атласа генетических программ, которые строят человеческое тело.

Это важно, потому что для методов, основанных на секвенировании ДНК отдельных клеток (например, жидкостная биопсия опухоли), само секвенирование стало основным узким местом.

Пример: Центр передовых технологий (CAT) UCSF может подготовить 50 000 клеток к секвенированию за один долгий день работы. Но даже на самом современном секвенаторе (5 миллиардов прочтений за полтора дня) глубокое секвенирование активности ДНК этих 50 000 клеток (по миллиону прочтений на клетку) заняло бы более двух недель. Если же извлекать нужную информацию всего из 20 000 прочтений на клетку (как предполагает исследование), то 150 000 клеток можно секвенировать всего за один день.

Такое ускорение может изменить многие исследования и клинические приложения секвенирования, которые сейчас считаются слишком дорогими или долгими.

«Если вы хотите профилировать, как разные лекарства влияют на эти пути — которые по определению состоят из множества разных генов — было бы огромной тратой времени и денег тестировать каждое лекарство на каждом гене с полной глубиной секвенирования», — говорит Эль-Самад. — «С другой стороны, если вы можете быстро определить, какие пути активируются при секвенировании гораздо более низкого разрешения, это означает, что вы можете протестировать безумное количество препаратов за разумное время».

Тот же принцип применим в работе Томсона по изучению дифференцировки стволовых клеток. Задействовано огромное количество генов, но гораздо меньше генетических путей, поэтому секвенирование низкого разрешения позволяет быстро определить, какие пути трансформируют клетки, после чего можно проводить дальнейшие эксперименты.

Исследователи использовали выведенные в статье уравнения, чтобы создать калькулятор глубины прочтений (read-depth calculator), помогающий другим учёным определить необходимое разрешение для их конкретных задач. Он размещён на сайте лаборатории Томсона.

«Наши вычислительные результаты по всем этим наборам данных демонстрируют, что это явление справедливо для всех видов генетических данных, а теоретическая часть объясняет, почему это так», — сказала Эль-Самад. — «Но приятно просто иметь формулу, чтобы не приходилось снова и снова обрабатывать данные».

2016-04-28