Учёные создали масштабируемое решение для анализа данных отдельных клеток

Исследователи накопили огромные базы данных по экспрессии генов в отдельных клетках, чтобы понять, как мельчайшие детали влияют на биологию человека. Однако текущие методы анализа не справляются с большим объёмом данных и, как следствие, дают смещённые и противоречивые результаты.

Учёные из Детской исследовательской больницы Сент-Джуд создали алгоритм машинного обучения, способный масштабироваться вместе с этими базами данных отдельных клеток для получения более точных результатов. Новый метод был опубликован сегодня (8 января) в журнале Cell Genomics.

До анализа отдельных клеток данные об общей экспрессии генов давали общие, но не уточнённые результаты для многих заболеваний. Анализ отдельных клеток позволяет исследователям изучать интересующие их индивидуальные клетки — разницу, аналогичную сравнению отдельного зерна кукурузы с целым полем. Эти детальные данные уже позволили совершить прорыв в понимании некоторых болезней и методов лечения, но трудности с воспроизведением и масштабированием анализа для постоянно растущих данных сдерживают прогресс.

«Мы внедрили новый набор инструментов, который можно масштабировать по мере роста этих наборов данных секвенирования РНК отдельных клеток», — сказал автор-корреспондент Пол Гилехер, доктор философии, из Департамента вычислительной биологии Сент-Джуд. «Произошёл экспоненциальный взрыв времени вычислений для анализа отдельных клеток, и наш метод возвращает точный анализ в приемлемые временные рамки».

Все методы изучения экспрессии генов в отдельных клетках создают большие объёмы данных. Когда учёные одновременно тестируют миллионы клеток, объём памяти и вычислительной мощности, необходимый для обработки данных, огромен. Команда Гилехера обратилась к другому типу аппаратного обеспечения для решения проблемы.

«Мы создали метод, использующий графические процессоры или GPU», — сказал первый автор Сюэин Лю, доктор философии, из Департамента вычислительной биологии Сент-Джуд. «Интеграция GPU дала нам вычислительную мощность для выполнения вычислительной нагрузки масштабируемым способом».

Неконтролируемое машинное обучение для анализа отдельных клеток

Объём данных часто вынуждает исследователей идти на уступки и делать допущения, которые вводят смещения при проведении анализа стандартными методами. Учёные Сент-Джуд использовали подход искусственного интеллекта, который устраняет такое смещение при этих выборах.

«Наш метод использует неконтролируемое машинное обучение, которое автоматически определяет более надёжные и менее произвольные параметры для анализа», — сказал Лю. «Он учится группировать клетки на основе их различных активных биологических процессов или идентичностей типов клеток».

Поскольку алгоритм обучается и выводит свой анализ из представленных данных, исследователи могут использовать его на любом крупном наборе данных секвенирования РНК отдельных клеток. Поскольку он исследует каждый новый большой набор данных индивидуально и использует только эти подсказки программ экспрессии для выводов, исследователи назвали подход Consensus and Scalable Inference of Gene Expression Programs (CSI-GEP).

При применении к крупнейшим базам данных РНК отдельных клеток CSI-GEP дал лучшие результаты, чем любой другой метод. Самое впечатляющее — алгоритм смог идентифицировать типы клеток и активность биологических процессов, пропущенных другими методами.

«Мы создали инструмент, широко применимый для изучения любого заболевания с помощью анализа РНК отдельных клеток», — сказал Гилехер. «Метод показал себя существенно лучше всех существующих подходов, которые мы тестировали, поэтому я надеюсь, что другие учёные рассмотрят возможность его использования, чтобы получить большую ценность из своих данных отдельных клеток».

CSI-GEP находится в свободном доступе на GitHub.

2025-01-08