全文链接:Python梯度提升模型GBM生态学研究:SFS、RandomizedSearchCV预测黑腿蜱种群分布丰度可视化 – 拓端
原文出处:拓端数据部落公众号
广义线性模型一直是揭示自然种群分布和丰度背后生态过程的基础统计框架。然而,随着环境和生态数据的快速增长,分析这些大规模数据集需要更先进的统计方法。梯度提升树等现代机器学习框架,能有效识别复杂生态关系并做出准确预测。但目前对这些方法在自然数据集上的理论优势,尚缺乏严格评估。
本文帮助客户对比了梯度提升模型与线性模型,在识别影响黑腿蜱种群分布和丰度的环境特征方面的能力,以及对其在纽约州十年间收集数据的预测能力。结果表明,梯度提升模型能发现非线性关系和相互作用,在预测黑腿蜱种群分布和丰度时,比线性模型更准确,且提供了更灵活的模型类型,对蜱虫监测和公共卫生具有重要意义。这凸显了梯度提升模型在发现影响病原体种群动态的新生态现象,以及作为减轻疾病风险的公共卫生工具方面的潜力。
引言
统计模型是理解自然界生态现象的基石。传统生态模型主要聚焦于识别自然现象的生物和非生物驱动因素,以及解释种群的分布和丰度。经典的广义线性模型促成了许多基础生态发现,然而,该模型框架存在技术劣势,如对误差分布的严格假设、对异常值的敏感性以及变量间线性关系的假设,这些限制了其预测能力。
机器学习方法如梯度提升树的出现,克服了许多上述局限性。但机器学习方法与线性模型在自然数据集上的有效性对比研究较少。本研究中,我们将梯度提升机器学习方法与可比的广义线性模型进行对比,评估它们在识别影响种群动态的环境特征,以及预测黑腿蜱(一种携带多种人类病原体的节肢动物媒介)种群分布和丰度方面的能力。
在机器学习方法中,梯度提升树以其在表格数据上的高预测准确性和对非线性关系的准确识别而闻名。梯度提升是一种高效的机器学习算法,能够分析大型数据集、识别变量间的复杂关系,并做出高精度的时空预测。该算法的强大之处在于,它能通过将数百个决策树组合成一个高度准确的集成,自动识别非线性和非加性关系。与传统线性模型相比,这些模型具有诸多优势,如可接受多种数据类型、不受数据和误差分布的限制,以及能自动检测非线性和交互关系。此外,交叉验证和可解释机器学习算法的发展,解决了先前对梯度提升算法易过拟合和难以推导生态推断的担忧。
方法
研究系统
在2008年至2018年间,使用标准化的拖拽、标记和步行调查协议,在532个不同地点确定了寻找宿主的若虫的存在和丰度。每个地点每1 - 5年采样一次,2008年至2018年间平均每个地点采样4.7次。纳入统计模型作为解释因素的环境特征,大致可分为地理、时间、季节、气候和景观特征。本研究中使用的蜱密度和环境数据,与先前Tran等人(2021a)所述相同,以便严格评估梯度提升模型和线性统计模型的相对功效。
train = df[df['Year'] < 2018]
train = train.reset_index(drop = True)
test = df[df['Year'] == 2018]
test = test.reset_index(drop = True)
分布和丰度模型
构建独立的分布和丰度梯度提升模型,以便与先前发表的分布和丰度线性模型进行直接比较。由于对蜱虫丰度进行对数变换以近似正态分布,无法处理蜱虫不存在的地点,因此未构建分布和丰度的组合线性模型。数据处理方式与先前Tran等人(2021a)所述相同,以利于梯度提升模型和线性模型之间的比较。例如,如果在某一年的多次实地访问中检测到若虫,则认为该地点当年存在蜱虫,且以当年该地点若虫丰度最高的那次访问数据,作为该地点该年的丰度值。构建模型的总结见(补充表2)。
radientBoostingRegressor(learning_rate = .06, max_depth = 3, n_estimators = 150, subsample = 0.8, max_featur