Учёные объединили статистику и биологию для создания нового важного вычислительного инструмента для генов
Клетки в нашем организме проявляют себя по-разному. Одна клетка может использовать фрагмент генетического кода, в то время как другая игнорирует ту же информацию. Понимание причин этого может стимулировать новые методы терапии стволовыми клетками или привести к более фундаментальному пониманию развития организмов. Однако выявление этих межклеточных различий может быть сложной задачей.
Два исследователя из UCLA создали вычислительный инструмент, повышающий надёжность измерения силы экспрессии генов в отдельной клетке, даже когда клетка едва считывает определённые гены. Исследование было опубликовано в журнале Nature Communications.
«Последовательность ДНК одинакова в клетке мозга, клетке печени и клетке сердца, — сказала Цзинъи "Джессика" Ли, автор-корреспондент исследования и доцент статистики UCLA. — Почему же эти клетки выглядят так по-разному? Ключевой момент — экспрессия генов».
ДНК кодирует информацию, необходимую для создания и функционирования организма. Но задача считывания и реализации этой информации ложится на РНК — длинные цепочки мобильных молекул, которые переносят генетические инструкции в другие части клетки. Подсчитывая различные молекулы РНК в клетке, исследователи могут определить, какие гены активны (или «экспрессируются») и в какой степени.
Однако, если молекулы РНК присутствуют лишь в следовых количествах, инструменты анализа могут ошибочно принять это за полное отсутствие активности соответствующих генов. Без коррекции эти «дропауты» могут создать вводящую в заблуждение картину реальных различий между клетками.
«Если вы хотите получить полезную биологическую информацию на уровне отдельной клетки, вам необходимо провести статистические выводы, — сказала Ли, возглавляющая лабораторию Junction of Statistics and Biology. — В противном случае ваши выводы могут быть ошибочными».
Джессика Ли и Вэй "Вивиан" Ли, докторант кафедры статистики UCLA, разработали программное обеспечение для статистического анализа, которое учитывает дропауты при секвенировании РНК. Их инструмент под названием scImpute оценивает, какие гены в клетке с наибольшей вероятностью подвержены дропаутам, на основе изучения всех отдельных клеток в эксперименте. Затем инструмент использует информацию от похожих клеток, чтобы сделать обоснованное предположение о том, каким должен быть уровень экспрессии гена.
Использование оценок не является новым. Но доступные инструменты либо слишком общие (заменяют все уровни экспрессии одной клетки на данные другой), либо узкоспециализированы для конкретного типа исследования. Преимущества scImpute — это «гибкость и универсальность», отмечает Джессика Ли. Инструмент действует с хирургической точностью, заменяя только те уровни экспрессии, которые, скорее всего, были потеряны, и может использоваться в любом типе анализа экспрессии генов в отдельных клетках.
В ходе всестороннего тестирования Вивиан Ли на смоделированных и реальных данных (некоторые из которых предоставляют эмпирические доказательства фактических уровней экспрессии генов) scImpute показал более высокую точность, чем другие методы. Программное обеспечение надёжно отличает гены с дропаутами от тех, которые вообще не экспрессируются, и даёт точные оценки фактических уровней экспрессии.
Программа с открытым исходным кодом доступна бесплатно онлайн в качестве дополнения для широко используемой научной вычислительной платформы для статистического анализа — среды программирования R.
Исследователи доказали, что scImpute хорошо работает в небольших группах клеток при низком уровне дропаутов. Однако в больших популяциях уровень дропаутов может превышать 90% генов. Их следующая цель — сделать инструмент столь же надёжным и в таких ситуациях. Используя информацию от других генов (а не только от других клеток) и из онлайн-баз данных, они полагают, что scImpute может стать мощным инструментом для любых ситуаций.
