AI для анализа биоизображений: что мешает прогрессу?
Отсутствие стимулов и низкое внедрение стандартов метаданных ограничивают потенциал ИИ в анализе биоизображений. Сообщество предлагает решения.
ИИ может находить тонкие закономерности в миллионах микроскопических изображений или сравнивать снимок пациента с тысячами других за секунды. Однако ряд технических и культурных барьеров, касающихся метаданных, стимулов, форматов и доступности, стоит на пути.
Руководитель группы BioImage Archive Мэтью Хартли (MH) и биоинформатик Тереса Сулуэта Коараса (TZC) объясняют, как могут помочь рекомендации, разработанные сообществом.
Что такое метаданные и почему они важны для биоимиджинга?
MH: Метаданные — это, по сути, контекст вокруг изображений и аннотаций. Они объясняют, что мы видим и как было получено изображение — когда, где и при каких условиях.
Для обучения ИИ метаданные делают набор данных интерпретируемым, пригодным для повторного использования и ценным за пределами лаборатории, которая их создала. Проблема в том, что разные лаборатории записывают метаданные по-разному, что затрудняет их повторное использование другими. Согласование стандартов помогает всем говорить на одном языке.
Какие рекомендации были разработаны?
MH: Идея возникла на организованном нами в 2023 году воркшопе в рамках проекта AI4Life, в котором участвовали 45 человек из сообщества, включая производителей данных, учёных в области ИИ и аналитиков биоизображений. Мы выделили четыре группы рекомендаций, обозначенных аббревиатурой MIFA: Metadata (Метаданные), Incentives (Стимулы), Formats (Форматы), Accessibility (Доступность). Статья с рекомендациями опубликована в Nature Methods.
Как улучшить повторное использование биоизображений для ИИ?
TZC:
- Метаданные: Мы предлагаем новый стандарт, фокусирующийся на аннотациях изображений, развивая такие стандарты метаданных, как REMBI (2021). Это важно, потому что аннотации (например, маски сегментации) — неотъемлемая часть наборов данных, и учёные должны понимать, что они собой представляют и как были созданы.
- Стимулы: Создание размеченных наборов данных требует много времени и усилий. Сейчас почти нет стимулов для лабораторий создавать метаданные или делиться изображениями в открытых репозиториях, таких как BioImage Archive. Это нужно менять, потребуются совместные усилия финансирующих организаций, журналов, архивов данных и сообщества.
- Форматы: Оборудование для микроскопии использует множество форматов в зависимости от производителя. Необходимы общие, совместимые форматы данных, чтобы лаборатории могли легко обмениваться изображениями и повторно их использовать.
Это не абстрактные идеи, а практические рекомендации, разработанные с учётом мнения как производителей данных, так и тех, кто нуждается в них для обучения ИИ.
Какой эффект может иметь широкое внедрение MIFA?
TZC: Биологи тратят месяцы на создание тщательно размеченных наборов данных, которые разработчикам ИИ часто трудно интерпретировать. Сближение сторон поможет преодолеть этот разрыв. Со стандартизированными метаданными модели ИИ, обученные на одном наборе данных, можно будет проверять на других, повышая воспроизводимость. Это откроет возможность сравнивать модели, воспроизводить результаты и ускорять открытия. Короче говоря, это сделает ИИ для биоимиджинга масштабируемым.
MH: В сообществе есть реальный импульс для этого. Например, журналы рекомендуют депонировать наборы данных в публичных архивах. Это само по себе создаёт стимул для исследователей более продуманно структурировать и делиться своими данными. Мы уверены, что если производители данных примут эти рекомендации, запустится цикл: лучшие данные → лучший ИИ → лучшая наука. Хороший первый шаг — ознакомиться с рекомендациями и попытаться интегрировать их в рабочие процессы.
Голоса сообщества
- Джошуа Токс, аспирант EMBL: «Благодаря рекомендациям MIFA и BioImage Archive я смог легко найти подходящие новые наборы данных для проекта по исследованию переносимости и выбора предобученных моделей сегментации изображений. Доступ к хорошо структурированным метаданным значительно упростил и ускорил работу с несколькими наборами данных для обучения и оценки нейронных сетей».
- Родриго Фернандес-Гонсалес, профессор Университета Торонто: «Мы надеемся, что, делясь изображениями и аннотациями в соответствии с MIFA, мы максимизируем возможность повторного использования наших наборов данных для обучения новых инструментов ИИ и повысим видимость нашего инструмента ИИ (рекуррентные нейронные сети ReSCU-Nets), обученного на этих данных».
