Vision model brings almost unsupervised crop segmentation to the field

Метод, использующий базовую модель компьютерного зрения Depth Anything V2, позволяет точно сегментировать посевы в различных условиях — в поле, лаборатории и с воздуха, — сокращая время и затраты на подготовку сельскохозяйственных данных.

Сегментация посевов — процесс идентификации областей культур на изображениях — критически важна для задач мониторинга в сельском хозяйстве. Традиционные методы, основанные на цветовых признаках, плохо справлялись с изменчивым освещением и сложным фоном.

Глубокое обучение произвело революцию в этой области, но требует больших, тщательно размеченных наборов данных. Предыдущие попытки снизить затраты на разметку сталкивались с компромиссами в производительности.

Исследование, опубликованное в Plant Phenomics командой Хао Лу из Университета науки и технологий Хуачжун, предлагает новый метод DepthCropSeg.

Для оценки эффективности DepthCropSeg исследователи провели эксперименты с четырьмя моделями семантической сегментации (U-Net, DeepLabV3+, SegFormer, Mask2Former) и двумя моделями без категорий (SAM, HQ-SAM). Эти модели обучались на псевдоразмеченных изображениях, сгенерированных Depth Anything V2, и сравнивались с полностью контролируемыми моделями.

Оценка проводилась по метрике mean Intersection over Union (mIoU) на десяти публичных наборах данных. Лучшая модель, SegFormer, была дополнительно улучшена с помощью двухэтапного самообучения и постобработки с использованием данных о глубине.

Результаты показали, что DepthCropSeg с его стратегией псевдометок и самообучения достиг производительности, почти эквивалентной полностью контролируемым моделям (87.23 vs. 87.10 mIoU). Метод превзошёл более простые методы на основе глубины (например, Depth-OTSU, Depth-GHT) более чем на 10 mIoU, а базовые модели SAM и HQ-SAM — примерно на 20 mIoU.

Абляционные исследования подтвердили значительный вклад ручной проверки, самообучения и фильтрации на основе глубины — каждый из этих этапов улучшал точность сегментации на 2–5 mIoU.

Качественные результаты на собранных изображениях продемонстрировали превосходное определение границ методом DepthCropSeg. Однако метод показал ограничения при работе с изображениями полного полога из-за их недостаточного представления в обучающем наборе.

В целом, исследование подтвердило, что высококачественные псевдомаски в сочетании с минимальной ручной проверкой и методами, использующими информацию о глубине, могут достичь производительности, близкой к контролируемой. Это создаёт масштабируемое и экономически эффективное решение для анализа сельскохозяйственных изображений.

DepthCropSeg предлагает новую парадигму обучения, которая обходится без исчерпывающей ручной разметки. Сочетая возможности базовых моделей с минимальным участием человека, метод достигает точности, сопоставимой с традиционными подходами, открывая путь к более быстрым, дешёвым и масштабируемым приложениям ИИ в сельском хозяйстве.

2025-08-08