头图

2025-03-29,由加州大学戴维斯分校和普林斯顿大学等机构联合创建的iNatAg数据集,包含 2,959 个物种的 470 多万张图像,为精准农业和可持续发展提供了强大的支持。该数据集不仅能够帮助研究人员更好地识别农作物和杂草,还能为农业机器学习工作流程提供直接的访问和集成,极大地推动了农业领域的技术进步。

一、研究背景

精准农业和可持续发展是现代农业的重要发展方向,准确识别农作物和杂草物种对于实现这些目标至关重要。然而,这一任务面临着诸多挑战,尽管深度学习技术的发展为植物物种识别带来了希望,但在实际应用中仍存在许多问题。

目前遇到困难和挑战:

1、物种视觉相似度高:许多农作物和杂草在外观上极为相似,尤其是在生长初期,这使得基于图像的识别变得极为困难。

2、环境变化大:实际田间条件下,图像采集受到自然光照、遮挡、背景杂乱和不同视角的影响,增加了识别的复杂性。

3、缺乏大规模农业专用图像数据:现有的植物图像数据集要么物种覆盖有限,要么缺乏农业相关的标注(如农作物/杂草标签),难以满足精准农业的需求。

数据集地址:iNatAg|植物识别数据集|农业分类数据集

二、让我们一起来看一下iNatAg

iNatAg是一个大规模的农业图像数据集,包含470万张涵盖2959种农作物和杂草的图像,并针对物种和作物/杂草分类进行了注释。

数据集构建:

1、数据来源:

iNatAg数据集是从iNaturalist数据库中筛选而来。

2、数据筛选

为了构建iNatAg数据集,研究者们首先从iNaturalist数据库中筛选出与农业相关的物种,通过与FAO Ecocrop数据库和Weed Science Society of America(WSSA)的物种列表进行比对,最终确定了2959种农作物和杂草。

3、数据标注

每张图像都标注了物种身份和农作物/杂草状态,支持多任务学习。此外,几乎所有图像都包含经纬度元数据。

4、数据平衡

为了确保数据集的平衡性和代表性,研究者们对每个物种的图像数量进行了限制,最终数据集包含470万张图像,其中农作物物种1986种,杂草物种973种。

5、数据集划分

数据集被划分为训练集、验证集和测试集,比例分别为75%、15%和10%。

6、数据增强

为了提高模型的泛化能力,研究者们对图像进行了数据增强,包括随机水平翻转、随机旋转、颜色抖动等。

数据集特点:

1、大规模:包含470万张图像,是目前最大的农业图像数据集之一。

2、多任务标注:每张图像都标注了物种身份和农作物/杂草状态,支持多任务学习。

3、地理多样性:图像来自全球各个大陆,涵盖了不同的地理区域和生长条件。

4、真实世界数据:图像反映了真实世界中的变化,如背景、光照、植物角度和分辨率的差异。

数据集使用方法:

iNatAg数据集通过AgML平台公开发布,研究人员可以通过简单的API调用直接访问和使用数据集。AgML提供了过滤功能,可以根据物种、属或科进行数据筛选,方便研究人员进行各种农业机器学习任务。

基准测试:

研究者们使用基于Swin Transformer架构的模型对iNatAg数据集进行了基准测试,评估了不同模型配置(如不同规模、是否使用LoRA微调以及是否使用地理空间数据)的性能。结果显示,最佳模型在物种分类任务上达到了79.40%的准确率,在属、科和农作物/杂草分类任务上分别达到了89.83%、94.07%和92.38%的准确率。

图片
来自 iNatAg 数据集的 40 种作物物种的示例。 此可视化快照突出显示了由于真实世界的用户生成数据而导致的叶子形状、颜色和背景的变化。
图片
来自 iNatAg 数据集的 40 种杂草物种的示例。 此快照演示了生长阶段变化、遮挡和环境背景引入的视觉复杂性。
图片
不同物种在视觉上的多样性以及它们在实际作物与杂草关系中的关联。普通豆(作物)、红根苋(杂草)、大黍(作物)、紫三棱(杂草)
图片
iNatAg 数据集的全球密度图。 颜色表示连续的密度刻度,深红色表示图像较多,蓝色表示图像较少。iNatAg 数据集跨越多个大洲,反映了广泛的生态和地理多样性。
图片
带和不带 LoRA 的 Swin Transformer 变体在物种、属、科和作物/杂草分类上的表现
图片
10 种最常见作物物种的混淆矩阵 。该模型总体表现良好,一些错误分类可能是由生长阶段的形态重叠或相似性解释的。
图片
10 种最常见杂草种类的混淆矩阵 。该模型总体表现良好,所表现出的错误分类可能是由于缺乏独特的视觉特征和样本之间的类内变异性较高。

三、展望iNatAg应用场景

豚草是一种原产于北美地区的恶性杂草,生命力极强。一株豚草可以产籽10万粒,种子落地30年仍能存活,即使被铲除后的残条也能重新发芽。这种杂草不仅会与农作物争夺水分、养分和光照,还会分泌具有化感作用的化合物,抑制本土植物生长,破坏原有生态系统。在农耕区,豚草混杂在玉米、大豆等作物之间,导致大面积草荒,农业减产。据统计,当1平方米玉米地里长有30-50株豚草苗时,玉米就会减产3至4成;超过50株时,几乎颗粒无收。

传统的防治方法包括人工拔除和化学方法,但这些方法费时费力且效果有限,滥用除草剂还会污染环境。

解决方案:

为了更高效地控制豚草,研究人员开始探索生物防治方法。他们发现,北美有一种专食豚草的昆虫——豚草条纹叶甲,这种昆虫可以有效遏制豚草的生长。于是,研究人员将豚草条纹叶甲引进并驯化,用于防治豚草。此外,中国农业科学院生物防治研究所还自主研发生防产品——豚草卷蛾,并在湖南试点成功,获批国家授权发明专利。

成果:

利用豚草卷蛾控制豚草的生物防治技术已在中国南方各省大面积推广,取得了显著成效。北京全市豚草发生面积已经从高峰时期的4万亩降到1.9万亩,豚草防控取得了阶段性胜利。

所以可以利用iNatAg数据集支持的快速识别系统,可以快速准确地识别入侵杂草,为采取有效的生物防治措施提供支持,从而保护本地生态系统和农业生产。

更多免费的数据集,请打开:遇见数据集

https://www.selectdataset.com/


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。