ИИ поможет раскрыть секреты некодирующих генов
Исследователь Майкл Шён из Вагенингенского университета разрабатывает инструмент на основе искусственного интеллекта (ИИ) для сравнения некодирующих РНК в геномах растений. Ожидается, что этот инструмент ускорит и упростит выведение новых сортов растений с повышенной устойчивостью к засухе или болезням.
Некодирующие РНК, в отличие от кодирующих, не содержат инструкций для создания белков, но играют важную роль в развитии организмов. Они могут активировать или отключать гены, влияя на внешний вид и свойства растения.
Сравнение родственных видов
Предыдущие исследования были сосредоточены в основном на белковых генах, что затрудняет сравнение некодирующих РНК у родственных растений. Шён, ранее изучавший некодирующие РНК у модельного растения Arabidopsis thaliana (резуховидка Таля), теперь ищет способы идентифицировать их у других видов семейства Brassicaceae (капустные), к которому также относятся брокколи, цветная капуста и кольраби.
Проблема в том, что в доступных геномных последовательностях (более 200 для семейства капустных) некодирующие участки плохо аннотированы, что делает их сравнение крайне сложным.
Инструмент GeneSketch и метод Minimizer Sketch
Для решения этой проблемы Шён разрабатывает инструмент GeneSketch. Первый этап — определение соответствующих участков в разных геномах с помощью метода Minimizer Sketch.
Идея метода в том, что для сравнения достаточно проанализировать небольшую «зарисовку» (sketch) ДНК — несколько тысяч символов вместо миллионов. Ранее этот метод успешно использовался для построения эволюционного дерева приматов на основе менее 1% данных полных геномов.
Технология трансформеров, как в ChatGPT
Следующий шаг — анализ найденных последовательностей. Для этого в GeneSketch будет использоваться та же технология, что и в ChatGPT — трансформеры.
Трансформер можно обучить распознавать закономерности не только в человеческом языке, но и в «языке» ДНК. Шён работает над моделью, которая научится обнаруживать паттерны в ДНК разных видов и переводить их в понятную для человека форму.
Задачи обучения модели
Ключевой вызов — обеспечение надежности модели. Как и ChatGPT, трансформер может допускать ошибки или «выдумывать» информацию на темы, которых не было в обучающих данных. Требуется тщательное обучение, чтобы минимизировать «бессмысленный» вывод. Шён исследует два подхода: обучение модели с нуля и дообучение существующих моделей.
Потенциал GeneSketch
Шён надеется создать прототип инструмента в течение первого года проекта (стартовал в октябре 2023 года) и использовать его для аннотирования генов всего семейства капустных.
Инструмент может быть полезен не только для науки, но и для сельского хозяйства. Он может предоставить селекционерам быстрый способ анализа ДНК культурных растений и их диких родственников. Понимание того, как у культур развивались уникальные признаки, поможет принимать более обоснованные решения для улучшения таких свойств, как устойчивость к изменению климата. Потенциальное влияние — огромно.
