地理加权回归 (Geographically Weighted Regression, GWR) 是一种广泛应用于地理空间分析的统计方法,用于捕捉地理现象的空间非平稳性(即空间异质性)。传统 GWR 通过为每个观测点分配权重来反映其对回归参数的影响,这些权重通常基于空间距离(如欧几里得距离)来计算,遵循「距离越近,影响越大」的原则。然而,这种基于距离的方法忽略了地理现象中复杂的情境相似性 (context similarity),例如社会经济因素或环境特征的相似性,这些因素可能对回归模型产生重要影响。例如,在城市环境中,两个相距较远的区域可能因相似的交通便利性、人口结构等社会经济或环境因素而表现出相似的房价特征。
为了解决这一问题,浙江省 GIS 重点实验室的研究人员提出了一种基于注意力机制的深度学习模型 Context-Attention Geographically Weighted Regression (CatGWR) 。该模型通过引入注意力机制,将样本之间的空间距离和情境相似性相结合,从而更准确地估计空间非平稳性。这一创新为地理空间建模提供了新的视角,尤其是在处理复杂地理现象时,能够更好地捕捉空间异质性和情境影响。
相关成果以「Using an attention-based architecture to incorporate context similarity into spatial non-stationarity estimation」为题,发布于 International Journal of Geographical Information Science 。
研究亮点:
* CatGWR 模型引入了注意力机制来计算样本之间的情境相似性,可以有效地避免情景特征中的噪声干扰,得到更精准的相似性表达。
* CatGWR 模型在模拟和实证数据集上具有显著的精度提升,并可提供更细致的解释方向。
论文地址:
https://doi.org/10.1080/13658816.2025.2456556
项目开源地址:
https://github.com/yorktownting/CatGWR
数据集:模拟实验与实际案例结合
本文通过模拟实验和实际案例研究验证了 CatGWR 模型的有效性。模拟实验使用了 2 个 64×64 的合成数据集(S1 和 S2),分别设计了包含情境异质性和仅空间异质性的场景。这些数据集通过模拟的情境属性(如空间异质性特征和随机分布特征)来构建回归关系,从而为模型性能评估提供了可控的实验环境。
实际案例研究则以中国深圳的房价数据为例。深圳作为中国快速城市化的典型代表,房价表现出显著的空间异质性。研究数据包括 1,776 个住宅小区的房价样本,以及 7 个与房价相关的独立变量(如建筑年代、管理费、绿化率等)。此外,研究还引入了 6 维的出租车载客数据作为情境特征,这些数据能够反映城市动态和人类活动模式,为模型提供了丰富的空间和情境信息。
模型架构:情景注意力驱动的地理加权回归
CatGWR 模型使用加性注意力机制计算地理情景相似性,并将之与空间距离权重相结合。模型分为 3 个模块:预处理模块(Preprocessor Module)、放大模块(Amplifier Module)和回归模块(Regression Module)。如下图所示:
CatGWR 的结构设计
(a) 预处理模块:负责提取输入数据中的因变量、自变量和情境特征,并计算每个样本与其邻域内的空间权重矩阵和空间联通矩阵。
(b) 放大模块:扩展模型的感受野,增强模型对邻域信息的利用。
(c) 回归模块:通过注意力机制计算样本间的情境相似性,并将其与空间权重矩阵结合得到情景化空间权重;利用多层感知机(MLP)将情境化的空间权重转换为回归系数,从而实现对空间非平稳性的估计。
实验结论:揭示深圳房价决定因素的空间非平稳性
本文通过模拟实验和深圳房价实证研究验证了 CatGWR 模型的有效性。在模拟实验中,首先模拟生成 4 个地理情景的特征变量 (Contextual Variables),并使用生成的特征变量,进一步构建 2 组模拟数据集:S1(特征变量作为系数的一部分参与数据集生成)和 S2(特征变量和回归关系无关,成为输入 CatGWR 的噪声)。实验结果表明:
* 在情景化场景 (S1) 中,CatGWR 可以更准确的解算情景相似性,并有效地将其与空间邻近性耦合,其表现显著优于 GWR 、 MGWR 、 CGWR 和 GNNWR 等现有模型。
* 在非情景化场景 (S2) 中,即使引入了与数据集无关的「情景变量」作为噪声,由于 CatGWR 所使用的注意力机制的鲁棒性,其表现仍不弱于传统 GWR 模型。
CatGWR 在模拟数据集上的对比试验结果
在深圳房价数据集上,CatGWR 模型进一步证明了其优越性。与现有模型相比,CatGWR 在训练集上的 R² 值从 0.853 提升至 0.920,预测集上的 R² 值从 0.717 提升至 0.764,RMS E 和 MAE 分别降低了 28% 和 26% 。
此外,CatGWR 模型还揭示了深圳房价决定因素的空间非平稳性,例如在深圳湾附近,受深港西部通道带来的深港通勤居民的影响,配套停车位数量对房价的影响相比其他区域更为显著。同时,样本间情景化空间权重的「距离相近但权重相异」的特点也反映了深圳市的城市建设和分区特点。这表明 CatGWR 能够有效捕捉空间异质性和情景相似性对房价的影响。
情景化权重差异及其反映的深圳市的城市建设和分区特点
* 特别经济区建设导致的城郊差异(相近物理距离下权重 A-E > A-D,A-C > A-B)
* 用地类型(卫星城-风景区)的差异(F-H > F-L,F-G > F-L)
CatGWR 模型通过引入注意力机制,成功将情景相似性与空间邻近性相结合,显著提升了空间非平稳性建模的精度和鲁棒性。该模型不仅在模拟数据上表现出色,还在实际应用中展现了强大的拟合能力,为地理过程建模提供了新的思路和方法。
借房价预测,对地理过程进行科学性解释
2024 年 4 月,浙江省 GIS 实验室的研究团队也曾在 International Journal of Geographical Information Science 上发表一篇同一研究领域的成果,将神经网络优化的空间邻近性度量与地理神经网络加权回归方法 (Geographically Neural Network Weighted Regression, GNNWR) 进一步结合,构建了 osp-GNNWR 模型,通过解算因变量与自变量的空间非平稳回归关系实现神经网络的训练。
论文链接:
https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771
点击查看完整报道:浙大 GIS 实验室提出 osp-GNNWR 模型:准确描述复杂空间过程和地理现象
无独有偶,该研究是以武汉房地产数据为例展开研究与验证,实验结果表明,osp-GNNWR 模型在描绘现实世界地理过程中的空间异质性方面具有潜在的优势。
该研究的作者浙江大学遥感与地理信息系统博士生丁佳乐,曾在一次线上学术分享中介绍道,「身为一个地理科学的探索者,如果我们推出的模型只能简单预测房价,那这样的成果在我看来是无趣的。我们追求的是,借助这些模型输出的一系列随空间位置而变化的回归系数,来对地理过程或者地理模式做出合理的科学解释,这样的研究才更具有实用性」。
诚然,地球科学的相关研究或隐秘于市井高楼之间,或远航于山川湖海之巅,但最终都将落于这片土地,帮助人们更好地理解地理过程,挖掘地理现象背后的意义。近年来,随着观测技术的不断进步,地球科学领域的时空数据呈现爆炸式增长,这也进一步促进了 AI 等新兴技术在地球科学领域的落地实践。
浙江省 GIS 重点实验室作为 AI 与地球科学交叉学科研究的先锋团队,将传统地理加权回归的理念与神经网络技术相结合,提出了一系列创新模型,包括地理神经网络加权回归 (GNNWR) 、地理时空神经网络加权回归 (GTNNWR) 等。
自首篇论文发表以来,GNNWR 、 GTNNWR 等系列方法备受关注,并在海洋学、地理学、大气科学和地质学等多个方向得到了广泛应用,团队累积发表相关论文超 30 篇。同时,相关成果也行业内其他团队带来灵感与启发,许多外部团队利用类似的建模思想或技术架构开展研究,而这也恰恰开源研究的魅力所在。
GNNWR 开源地址:
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。