全文链接:https://tecdat.cn/?p=39232
*原文出处:拓端数据部落公众号*
广义线性模型一直是揭示自然种群分布和丰度背后生态过程的基础统计框架。然而,随着环境和生态数据的快速增长,分析这些大规模数据集需要更先进的统计方法。梯度提升树等现代机器学习框架,能有效识别复杂生态关系并做出准确预测。但目前对这些方法在自然数据集上的理论优势,尚缺乏严格评估。
本文帮助客户对比了梯度提升模型与线性模型,在识别影响黑腿蜱种群分布和丰度的环境特征方面的能力,以及对其在纽约州十年间收集数据的预测能力。结果表明,梯度提升模型能发现非线性关系和相互作用,在预测黑腿蜱种群分布和丰度时,比线性模型更准确,且提供了更灵活的模型类型,对蜱虫监测和公共卫生具有重要意义。这凸显了梯度提升模型在发现影响病原体种群动态的新生态现象,以及作为减轻疾病风险的公共卫生工具方面的潜力。
引言
统计模型是理解自然界生态现象的基石。传统生态模型主要聚焦于识别自然现象的生物和非生物驱动因素,以及解释种群的分布和丰度。经典的广义线性模型促成了许多基础生态发现,然而,该模型框架存在技术劣势,如对误差分布的严格假设、对异常值的敏感性以及变量间线性关系的假设,这些限制了其预测能力。
机器学习方法如梯度提升树的出现,克服了许多上述局限性。但机器学习方法与线性模型在自然数据集上的有效性对比研究较少。本研究中,我们将梯度提升机器学习方法与可比的广义线性模型进行对比,评估它们在识别影响种群动态的环境特征,以及预测黑腿蜱(一种携带多种人类病原体的节肢动物媒介)种群分布和丰度方面的能力。
在机器学习方法中,梯度提升树以其在表格数据上的高预测准确性和对非线性关系的准确识别而闻名。梯度提升是一种高效的机器学习算法,能够分析大型数据集、识别变量间的复杂关系,并做出高精度的时空预测。该算法的强大之处在于,它能通过将数百个决策树组合成一个高度准确的集成,自动识别非线性和非加性关系。与传统线性模型相比,这些模型具有诸多优势,如可接受多种数据类型、不受数据和误差分布的限制,以及能自动检测非线性和交互关系。此外,交叉验证和可解释机器学习算法的发展,解决了先前对梯度提升算法易过拟合和难以推导生态推断的担忧。
方法
研究系统
在2008年至2018年间,使用标准化的拖拽、标记和步行调查协议,在532个不同地点确定了寻找宿主的若虫的存在和丰度。每个地点每1 - 5年采样一次,2008年至2018年间平均每个地点采样4.7次。纳入统计模型作为解释因素的环境特征,大致可分为地理、时间、季节、气候和景观特征。本研究中使用的蜱密度和环境数据,与先前Tran等人(2021a)所述相同,以便严格评估梯度提升模型和线性统计模型的相对功效。
train = df\[df\['Year'\] < 2018\]
train = train.reset_index(drop = True)
test = df\[df\['Year'\] == 2018\]
test = test.reset_index(drop = True)
分布和丰度模型
构建独立的分布和丰度梯度提升模型,以便与先前发表的分布和丰度线性模型进行直接比较。由于对蜱虫丰度进行对数变换以近似正态分布,无法处理蜱虫不存在的地点,因此未构建分布和丰度的组合线性模型。数据处理方式与先前Tran等人(2021a)所述相同,以利于梯度提升模型和线性模型之间的比较。例如,如果在某一年的多次实地访问中检测到若虫,则认为该地点当年存在蜱虫,且以当年该地点若虫丰度最高的那次访问数据,作为该地点该年的丰度值。构建模型的总结见(补充表2)。
radientBoostingRegressor(learning\_rate = .06, max\_depth = 3, n\_estimators = 150, subsample = 0.8, max\_features = 0.8, random_state = 43),
k_features=(1,30),
forward=True,
n_jobs = -1,
floating=True,
verbose=2,
scoring='neg\_root\_mean\_squared\_error',
梯度提升模型的训练包括特征选择、超参数调整以及对训练数据集(2008 - 2017年的数据)进行模型拟合。使用前向逐步特征选择算法,为每个模型分别选择环境特征,该算法在5折交叉验证数据集上优化平均预测性能。简单来说,5折交叉验证数据集的每一折,都是通过将训练数据随机划分为模型拟合子集(80%的数据)和评估子集(20%的数据)生成的,使得每一折都包含唯一的20%训练数据用于评估。为降低过拟合概率,模型限制使用30个或更少的环境特征。使用随机搜索算法调整影响学习过程的超参数,以找到在交叉验证数据集上性能最大化的值。使用交叉验证集优化最终模型拟合过程中使用的特征和超参数,可减少对训练数据的过拟合,使最终模型更有可能对样本外数据(2018年收集的数据,未用于训练模型)具有泛化能力。
预测准确性评估
使用先前发表的准确性指标,将梯度提升分布和丰度模型的样本外预测准确性,与线性分布和丰度模型的准确性进行比较。具体而言,基于准确性、敏感性和特异性,评估梯度提升和线性分布模型对2018年样本外数据的预测。使用均方根误差和R²值,比较丰度模型对样本外数据的预测。此外,按照Tran等人(2021a)的方法比较丰度模型,将蜱虫丰度从对数变换后的若虫数量,转换为低(1 - 4只若虫)、中(7 - 35只)和高(36只及以上)的离散类别,若预测值在平均预测误差的一个自然对数单位内,则认为预测准确。
分布和丰度的同时建模
使用梯度提升框架构建多分类模型和密度估计回归模型。这些模型无需像线性模型那样进行数据处理(如对数变换),可对所有地点和年份的存在和丰度进行同时分析。多分类模型将若虫丰度预测为三个类别之一:不存在(无若虫)、低丰度(1 - 35只若虫)和高丰度(>35只若虫)。以对2018年访问地点的预测分类准确性,评估样本外性能。梯度提升密度模型与先前描述的丰度模型类似,不同之处在于响应变量是蜱虫密度(而非线性模型中使用的采集蜱虫数量),且允许地点密度为零。若虫密度估计为每采集小时采集的蜱虫数量。此处采集小时数限制为4小时,因为初步分析和先前研究表明,纳入更大的采集小时值时,密度估计会有偏差。在模型拟合过程中,地点的统计权重与采集小时数呈正相关,直至4小时,因为采样努力更多的地点,密度估计准确性更高。
parameters = {'learning\_rate': sp\_randFloat(.01, .12),
'subsample' : sp_randFloat(.6, .4),
'n\_estimators' : sp\_randInt(80, 500),
'max\_depth' : sp\_randInt(2, 10),
'max\_features' : sp\_randFloat(.2, .8),
'min\_samples\_split' : sp_randInt(2, 40),
'min\_samples\_leaf' : sp_randInt(1, 20),
mod_m = GradientBoostingClassifier()
rand\_mod\_m = RandomizedSearchCV(mod\_m, param\_distributions = parameters, n\_iter=5000, scoring='f1\_macro', n\_jobs=-1, refit=True, cv=5, verbose=1, random\_state=5)
rand\_mod\_m.fit(x\_train\_m, y\_train\_m\['Nymph'\])
环境特征分析
使用SHAP(SHapley Additive exPlanation)值,分析每个模型中若虫蜱分布或丰度与单个环境特征之间的关系。简单来说,该解释框架估计每个模型特征对模型预测的影响。这些估计共同提供了在其他模型特征背景下,每个特征对模型预测影响的全局视图。SHAP值用于识别和可视化每个模型发现的非线性关系和相互作用效应。由于多分类模型的复杂输出在该分析框架中不受支持,因此SHAP值未用于评估环境变量对多分类模型预测的影响。
结果
梯度提升分布和丰度模型在预测能力和识别环境特征间复杂关系方面,均优于线性模型。使用2008 - 2017年数据构建的梯度提升分布模型(图1A),准确预测了2018年94%存在蜱虫的地点和84%不存在蜱虫的地点。相比之下,在相同数据上训练和测试的线性分布模型,准确预测了80.6%存在蜱虫的地点和80.7%不存在蜱虫的地点。重要的是,梯度提升模型的假阴性率远低于线性模型(5.8%对19.4%),这对公共卫生工作来说是一个代价高昂的错误。梯度提升分布模型对2018年首次访问的27个地点,也做出了高精度预测(真阳性率 = 85%;真阴性率 = 86%)。
梯度提升丰度模型在所有定量指标上,都比类似的线性模型更准确地预测了样本外蜱虫丰度(RMSE = 0.972对1.096;R² = 0.59对0.48)。将梯度提升模型预测也转换为离散类别,使用先前发表的方法比较线性和梯度提升模型的准确性。梯度提升丰度模型比线性模型更准确,正确预测了82.5%地点的丰度,而线性模型为74.8%(图1B)。梯度提升模型对2018年首次访问地点的丰度预测也具有较高准确性(83.3%;RMSE = 0.948;R² = 0.61)。重要的是,梯度提升模型错误预测的所有地点中,近40%是保守的,即模型在高丰度地点高估了蜱虫丰度(n = 3),或在低丰度地点低估了蜱虫丰度(n = 4)。这些误差的代价相对较小,因为它们表明模型正确预测了蜱虫丰度的高低趋势,只是在数量级上存在误差。
梯度提升模型检测到了先前发表的线性模型未研究的,环境特征与若虫丰度之间的复杂非线性关系。例如,鹿种群规模估计与若虫丰度之间存在高度复杂的关系(图2A):鹿捕猎量小于2000时,若虫丰度预测降低;鹿捕猎量在2000到3000之间时,与若虫丰度增加相关;鹿捕猎量在3000到6000之间时,与若虫丰度降低相关;鹿捕猎量高于6000时,与若虫丰度增加相关。虽然在生物学上可能不相关,但蜱虫采集次数(采样小时数)与采集到的若虫数量呈正相关但增速递减(图2B)。即采集若虫数量与实地技术人员在访问时间少于2小时的地点标记蜱虫的小时数,呈强正相关。然而,在访问时间大于2小时的地点,这种正相关关系变得不那么明显,在访问时间超过5小时的地点则无法检测到。
梯度提升模型还检测到环境特征之间非加性相互作用,对若虫蜱存在的影响。一个与生态相关的相互作用表明,采样月份对活跃若虫存在的影响,取决于采样前一年6月的最高温度(图3)。尽管由于纽约州肩突硬蜱的季节性活动模式,采样月份通常对若虫存在有很强的预测性,但如果前一年6月温度较高,夏季月份(5 - 8月)更有可能检测到蜱虫。相比之下,如果前一年6月最高温度较低,秋季月份(9 - 12月)检测到若虫蜱的概率更大。这种非加性效应足够强,使得5月从与前一年6月温度较低时若虫存在负相关,变为与温度较高时正相关。
梯度提升分布和丰度模型使用的环境特征集,与线性模型中包含的特征集相似,但与若虫种群的关系更为复杂。尽管特征选择过程不同,但两个建模框架经常使用相同或强相关的特征作为预测因子(补充表1)。然而,线性模型将特征与若虫种群线性相关,且无相互作用效应,而梯度提升模型中的关系总是非线性的,且经常包含相互作用。实际上,上述两个非线性关系(图2)涉及的特征,都包含在先前发表的线性模型中。
梯度提升框架还用于生成两个额外模型——多分类模型和密度模型,它们可同时估计若虫的存在和丰度。多分类模型能准确预测哪些地点无若虫、低若虫丰度(1 - 35)或高若虫丰度(>35),在样本外数据集中正确分类了80%的地点(图4)。该多分类模型预测若虫存在或不存在的准确性,与梯度提升分布模型相似(均约为90%),但具有区分两个非零丰度类别的额外功能。新的密度模型能准确预测样本外数据的蜱虫密度(每采集小时的蜱虫数)的连续估计值(R² = 0.42)。将比较限制在丰度模型中包含的样本外数据子集(图1B),密度模型的性能与线性丰度模型相当(RMSE = 1.06对1.096;R² = 0.51对0.48),同时保留了预测若虫不存在的附加功能。多分类模型和密度模型,在2018年首次访问的地点和2018年前已采样的地点,都具有相似的预测准确性。
讨论
对近期公开可用的生物和环境数据进行机器学习分析,非常适合发现新的生态见解,并准确预测自然界中种群的分布和丰度。梯度提升建模框架能高效准确地从大型数据集中识别简单和复杂的生态关系,并对自然种群的动态做出高精度预测。然而,梯度提升模型相对于传统线性模型的理论优势,很少在自然数据集上得到验证。因此,许多生态学家仍仅依赖广义线性模型,尽管梯度提升模型在探索和解释数据方面可能更有效。
本研究表明,与线性模型相比,梯度提升模型能更高效准确地预测肩突硬蜱自然种群的分布和丰度。此外,梯度提升模型识别出的非线性和非加性关系,在线性建模框架中难以检测,这些关系提高了预测准确性。这些结果表明,梯度提升模型既能改进时空预测,又能为自然种群生态学提供新的见解。
参考文献
[1] Abbott I, Abbott LK, Grant PR. Comparative Ecology of Galapagos Ground Finches (Geospiza Gould): Evaluation of the Importance of Floristic Diversity and Interspecific Competition. Ecological Monographs. 1977;47:151–184.
[2] Ashby J, Moreno - Madriñán MJ, Yiannoutsos CT, Stanforth A. Niche Modeling of Dengue Fever Using Remotely Sensed Environmental Factors and Boosted Regression Trees. Remote Sensing. 2017;9.
[3] Austin MP, Cunningham RB, Fleming PM. New approaches to direct gradient analysis using environmental scalars and statistical curve - fitting procedures. Vegetation. 1984;55:11–27.
[4] Austin MP, Nicholls AO, Margules CR. Measurement of the Realized Qualitative Niche: Environmental Niches of Five Eucalyptus Species. Ecological Monographs. 1990;60:161–177.
[5] Bah MT, Grosbois V, Stachurski F, Muñoz F, Duhayon M, Rakotoarivony I, Appelgren A, Calloix C, Noguera L, Mouillaud T, Andary C, Lancelot R, Huber K, Garros C, Leblond A, Vial L. The Crimean - Congo haemorrhagic fever tick vector Hyalomma marginatum in the south of France: Modelling its distribution and determination of factors influencing its establishment in a newly invaded area. Transboundary and Emerging Diseases. 2022;69.
[6] Becker EA, Carretta JV, Forney KA, Barlow J, Brodie S, Hoopes R, Jacox MG, Maxwell SM, Redfern JV, Sisson NB, Welch H, Hazen EL. Performance evaluation of cetacean species distribution models developed using generalized additive models and boosted regression trees. Ecology and Evolution. 2020;10:5759–5784.
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。