ИИ поможет раскрыть секреты некодирующих генов

Исследователь Майкл Шён из Вагенингенского университета разрабатывает инструмент на основе искусственного интеллекта (ИИ) для сравнения некодирующих РНК в геномах растений. Ожидается, что этот инструмент ускорит и упростит выведение новых сортов растений с повышенной устойчивостью к засухе или болезням.

Некодирующие РНК, в отличие от кодирующих, не содержат инструкций для создания белков, но играют важную роль в развитии организмов. Они могут активировать или отключать гены, влияя на внешний вид и свойства растения.

Сравнение родственных видов

Предыдущие исследования были сосредоточены в основном на белковых генах, что затрудняет сравнение некодирующих РНК у родственных растений. Шён, ранее изучавший некодирующие РНК у модельного растения Arabidopsis thaliana (резуховидка Таля), теперь ищет способы идентифицировать их у других видов семейства Brassicaceae (капустные), к которому также относятся брокколи, цветная капуста и кольраби.

Проблема в том, что в доступных геномных последовательностях (более 200 для семейства капустных) некодирующие участки плохо аннотированы, что делает их сравнение крайне сложным.

Инструмент GeneSketch и метод Minimizer Sketch

Для решения этой проблемы Шён разрабатывает инструмент GeneSketch. Первый этап — определение соответствующих участков в разных геномах с помощью метода Minimizer Sketch.

Идея метода в том, что для сравнения достаточно проанализировать небольшую «зарисовку» (sketch) ДНК — несколько тысяч символов вместо миллионов. Ранее этот метод успешно использовался для построения эволюционного дерева приматов на основе менее 1% данных полных геномов.

Технология трансформеров, как в ChatGPT

Следующий шаг — анализ найденных последовательностей. Для этого в GeneSketch будет использоваться та же технология, что и в ChatGPT — трансформеры.

Трансформер можно обучить распознавать закономерности не только в человеческом языке, но и в «языке» ДНК. Шён работает над моделью, которая научится обнаруживать паттерны в ДНК разных видов и переводить их в понятную для человека форму.

Задачи обучения модели

Ключевой вызов — обеспечение надежности модели. Как и ChatGPT, трансформер может допускать ошибки или «выдумывать» информацию на темы, которых не было в обучающих данных. Требуется тщательное обучение, чтобы минимизировать «бессмысленный» вывод. Шён исследует два подхода: обучение модели с нуля и дообучение существующих моделей.

Потенциал GeneSketch

Шён надеется создать прототип инструмента в течение первого года проекта (стартовал в октябре 2023 года) и использовать его для аннотирования генов всего семейства капустных.

Инструмент может быть полезен не только для науки, но и для сельского хозяйства. Он может предоставить селекционерам быстрый способ анализа ДНК культурных растений и их диких родственников. Понимание того, как у культур развивались уникальные признаки, поможет принимать более обоснованные решения для улучшения таких свойств, как устойчивость к изменению климата. Потенциальное влияние — огромно.

2024-05-15