Учёные обнаружили растущее число ошибок в геномных данных

Исследователи из Университета штата Вашингтон обнаружили тревожное количество ошибок в общедоступных геномных данных в ходе масштабного анализа белковых последовательностей.

Работа, опубликованная в журнале Frontiers in Microbiology, может иметь важные последствия для будущих геномных исследований.

Междисциплинарная команда изначально ставила целью найти доказательства существования минимального набора белков, необходимого для выживания Proteobacteria. Их набор данных состоял из почти девяти миллионов белковых последовательностей, сгруппированных по сходству из более чем 2300 бактериальных геномов.

В ходе поиска четырёх специфических белков, которые считались частью минимального генома Proteobacteria, они обнаружили, что только один из четырёх белков присутствовал у всех бактерий. Также было найдено большое количество ошибок в общедоступных данных.

«Мы обнаружили, что для каждого из белков были ошибки в аннотации их генов, что приводило к укороченным или отсутствующим последовательностям», — сказала Шира Брошат, профессор Школы электротехники и компьютерных наук.

Огромные объёмы данных, создаваемые технологиями секвенирования нового поколения, делают такие ошибки аннотации особенно проблематичными.

«Единственная ошибка аннотации может быстро распространяться, потому что учёные опираются на предыдущие аннотации при секвенировании новых геномов», — пояснила Светлана Локвуд, ведущий автор статьи.

Если в рамках проекта «Геном человека» в 2003 году на секвенирование человеческого генома ушло 13 лет и $2,7 млрд, то сейчас ту же работу можно выполнить за один час менее чем за $1500.

«Только за последние два года исследователи секвенировали более чем в два раза больше бактериальных геномов, чем за двадцать предыдущих лет», — отметила Брошат.

Хотя это не первая статья, отмечающая существование ошибок аннотации, работа команды из Университета штата Вашингтона перечисляет и объясняет различные типы таких ошибок, встречающихся в данных геномного секвенирования.

«При таком масштабе неправильной аннотации исследователям необходимо переоценить надёжность общедоступных геномных данных для использования в приложениях больших данных», — заявила Брошат.

По словам Келли Брейтон, ошибки обусловлены человеческими и технологическими факторами. Они часто возникают из-за несовершенства технологии секвенирования ДНК, а также из-за путаницы и недостатка знаний о белках.

Команда использовала современное программное обеспечение и высокопроизводительный вычислительный кластер для работы со своим набором данных — крупнейшим в своём роде на сегодняшний день. Данные были собраны из базы данных Национального центра биотехнологической информации (NCBI). Работа финансировалась Национальным научным фондом (NSF).

Брошат и Брейтон сейчас работают над инструментом для поиска ошибок аннотации в биологических наборах данных, который будет полезен всем, кто работает в науках о жизни.

2019-04-30