Глубокое обучение предсказывает экспрессию генов и находит регуляторные последовательности

Исследовательская группа под руководством профессоров Го Гоцзи и Хань Сяопина из Медицинской школы Чжэцзянского университета опубликовала статью "Deep learning of cross-species single cell landscapes identifies conserved regulatory programs underlying cell types" в журнале Nature Genetics 13 октября.

В исследовании учёные использовали самостоятельно разработанную технологию Microwell-seq для построения клеточных ландшафтов целых организмов у рыбок данио, дрозофилы и дождевого червя. Такой подход на уровне целого организма позволил исключить технические погрешности, связанные с анализом отдельных тканей. Было проанализировано:

  • 635 228 отдельных клеток рыбки данио
  • 276 706 отдельных клеток дрозофилы
  • 95 020 отдельных клеток дождевого червя

Вместе с данными по пяти другим видам, исследователи проанализировали в общей сложности восемь репрезентативных видов многоклеточных животных, чтобы изучить консервативные механизмы генетической регуляции у позвоночных и беспозвоночных.

Ключевым достижением стала разработка основанной на глубоком обучении системы Nvwa (названа в честь древнекитайской богини-создательницы). Эта система способна предсказывать экспрессию генов исключительно на основе последовательности ДНК на уровне отдельной клетки. Nvwa точно предсказывает экспрессию генов практически у всех изученных видов.

Извлекая мотивы (шаблоны последовательностей ДНК) из фильтров свёрточного слоя модели, исследователи расшифровали специфичные для типов клеток последовательностные правила и идентифицировали консервативные регуляторные программы, общие для разных видов.

Это первая интегрированная модель, созданная для анализа транскриптомных ландшафтов разных видов. Исследование предоставляет ценный ресурс и предлагает новый подход для изучения "грамматики" регуляции генов в различных биологических системах.

2022-10-25