Новый мощный инструмент для геномики и исследований заболеваний

Исследователи UVA Health разработали важный новый инструмент, который поможет учёным отделить сигнал от шума при изучении генетических причин рака и других заболеваний. Помимо продвижения исследований и потенциального ускорения новых методов лечения, этот инструмент может улучшить диагностику рака, облегчая врачам обнаружение раковых клеток.

Инструмент, разработанный командой доктора философии Чонгжи Занга (UVA) и его коллабораторами, представляет собой математическую модель. Она поможет обеспечить целостность «больших данных» о строительных блоках наших хромосом — генетическом материале под названием хроматин. Хроматин (комбинация ДНК и белка) играет важную роль в регуляции активности наших генов. Его нарушения могут превратить здоровую клетку в раковую или способствовать другим заболеваниям.

Сейчас учёные могут изучать хроматин в отдельных клетках с помощью передовой технологии «single-cell ATAC-seq», но она генерирует огромный объём данных, включая много шума и систематических ошибок (биаса). Новый инструмент Занга позволяет преодолеть эту проблему, избавляя учёных от ложных зацепок и бесполезных усилий.

Как отмечает Занг, крупномасштабные исследования в области одноклеточной геномики в лучшем случае похожи на «поиск иголки в стоге сена». Его новый инструмент значительно облегчит задачу, убрав много «плохого сена».

«Используя традиционный способ анализа данных, вы можете увидеть некоторые паттерны, которые выглядят как реальные сигналы определённого состояния хроматина, но на самом деле они ложные из-за систематической ошибки самой экспериментальной технологии. Такие ложные сигналы могут сбивать учёных с толку», — пояснил Занг, вычислительный биолог из Центра геномики общественного здоровья UVA и Онкологического центра UVA Health. — «Мы разработали модель, чтобы лучше улавливать и отфильтровывать такие ложные сигналы, чтобы настоящая иголка, которую мы ищем, могла легче выделиться в стоге сена».

Об инструменте

Новый инструмент Занга адаптирует модель из теории чисел и криптологии под названием «симплексное кодирование» (simplex encoding). Исследователи использовали её для кодирования последовательностей ДНК в математические формы и, в конечном итоге, преобразования сложной геномной последовательности в гораздо более простую математическую форму. Затем они могут сравнивать разные формы, чтобы обнаружить систематические ошибки и шум в данных последовательностей, которые трудно найти с помощью традиционных подходов.

«Сложность последовательностей ДНК растёт экспоненциально с увеличением их длины. Их сложно моделировать, потому что типичный набор данных содержит миллионы последовательностей из тысяч клеток», — сказал доктор философии Шенген Шон Ху, научный сотрудник лаборатории Занга и ведущий автор работы. — «Но модель симплексного кодирования может дать точную оценку систематических ошибок последовательностей благодаря своим красивым математическим свойствам».

Тестирование инструмента показало, что он значительно лучше анализирует сложные одноклеточные данные для характеристики различных типов клеток. Это важно как для фундаментальных биологических исследований, так и для диагностики заболеваний, когда врачам необходимо обнаружить крошечное количество больных клеток в гораздо больших образцах — от десятков тысяч до миллионов клеток.

«Систематические ошибки было нелегко обнаружить, потому что они переплетались с реальными сигналами и скрывались в больших данных. Возможно, это не было бы большой проблемой, если бы люди собирались выбирать только самые сильные сигналы из большого количества клеток», — отметил Занг, который недавно совместно руководил несколькими другими исследованиями в области одноклеточной геномики по изучению ишемической болезни сердца и развития кишечника. — «Но когда вы смотрите на одноклеточные данные, низко висящих плодов больше нет. Сигналы всегда слабы на уровне отдельной клетки, и влияние шума и систематических ошибок может быть катастрофическим. Коррекция систематических ошибок часто игнорируется, но может иметь жизненно важное значение при анализе одноклеточных данных».

Чтобы сделать свой новый инструмент широко доступным, исследователи создали бесплатное программное обеспечение с открытым исходным кодом и разместили его в сети. Программное обеспечение можно найти на GitHub.

«Мы надеемся, что этот инструмент поможет биомедицинскому исследовательскому сообществу в изучении биологии хроматина и геномики и в конечном итоге будет способствовать исследованиям заболеваний», — сказал Занг. — «Всегда приятно видеть, как наши коллеги используют разработанные нами инструменты для важных научных открытий в своих собственных исследованиях».

Результаты исследования опубликованы в журнале Nature Communications.

2022-11-22