Использование искусственного интеллекта для коррекции ошибок в анализе единичных клеток
Современные технологии позволяют секвенировать отдельные клетки и определять, какие гены в них активны в данный момент. Эти методы чувствительны и, как следствие, подвержены ошибкам. Устройства, условия среды и сама биология могут быть причиной сбоев и различий между измерениями. Исследователи из Helmholtz Zentrum München совместно с коллегами из Технического университета Мюнхена (TUM) и британского Института Сэнгера разработали алгоритмы, позволяющие предсказывать и корректировать такие источники ошибок. Работа опубликована в Nature Methods и Nature Communications.
Масштабный проект Human Cell Atlas ставит целью картировать все ткани человеческого тела в различные моменты времени, чтобы создать референсную базу данных для развития персонализированной медицины — способности отличать здоровые клетки от больных. Это стало возможным благодаря технологии single-cell RNA sequencing, которая помогает понять, какие гены включены или выключены в каждый конкретный момент в этих крошечных компонентах жизни. «С методологической точки зрения это огромный скачок. Раньше такие данные можно было получить только из больших групп клеток, потому что для измерений требовалось много RNA», — объясняет Марен Бюттнер. «Поэтому результаты всегда были лишь усреднёнными по всем использованным клеткам. Теперь мы можем получать точные данные для каждой отдельной клетки», — говорит аспирантка Института вычислительной биологии (ICB) Helmholtz Zentrum München.
Однако возросшая чувствительность метода означает и повышенную восприимчивость к batch effect. «Batch effect описывает колебания между измерениями, которые могут возникать, например, если температура устройства даже слегка отклоняется или меняется время обработки клеток», — объясняет Марен Бюттнер. Хотя существует несколько моделей для коррекции этих отклонений, эти методы сильно зависят от фактической величины эффекта. «Поэтому мы разработали удобную, надёжную и чувствительную меру под названием kBET, которая количественно оценивает различия между экспериментами и, следовательно, облегчает сравнение различных результатов коррекции», — говорит Бюттнер.
Помимо batch effect, серьёзную проблему в секвенировании единичных клеток представляет явление, известное как dropout events. «Допустим, мы секвенируем клетку и наблюдаем, что определённый ген в клетке вообще не испускает сигнал», — объясняет д-р д-р Фабиан Тайс, директор ICB и профессор математического моделирования биологических систем в TUM. «Основная причина этого может быть биологической или технической: либо ген не считывается секвенатором, потому что он просто не экспрессируется, либо он не был обнаружен по техническим причинам», — поясняет он.
Чтобы распознать такие случаи, биоинформатики Гёкчен Эраслан и Лукас Симон из группы Тайса использовали большое количество последовательностей многих одиночных клеток и разработали так называемый deep learning алгоритм — искусственный интеллект, имитирующий процессы обучения, происходящие у людей (нейронные сети).
Опираясь на новую вероятностную модель и сравнивая исходные и реконструированные данные, алгоритм определяет, связано ли отсутствие сигнала гена с биологическим или техническим сбоем. «Эта модель даже позволяет определять поправки, специфичные для типа клеток, без того, чтобы два разных типа клеток становились искусственно похожими», — говорит Фабиан Тайс. «Как один из первых методов глубокого обучения в области single-cell genomics, алгоритм имеет дополнительное преимущество: он хорошо масштабируется для работы с наборами данных, содержащими миллионы клеток».
Но есть одна вещь, которой этот метод не является — и это важно подчеркнуть: «Мы не разрабатываем программное обеспечение для сглаживания результатов. Наша главная цель — выявлять и исправлять ошибки», — объясняет Фабиан Тайс. «Мы можем делиться этими максимально точными данными с нашими коллегами по всему миру и сравнивать наши результаты с их результатами» — например, когда исследователи Helmholtz вносят свои алгоритмы и анализы в Human Cell Atlas, поскольку надёжность и сопоставимость данных имеют первостепенное значение.
