Fusion of FY-4B Land Surface Temperature Based on XGBoost Algorithm: A Case Study of Shaanxi Province

  • Xuting ZHANG , 1, 2 ,
  • Wenting QUAN 1, 2 ,
  • Hui ZHOU 1, 2 ,
  • Yuying PAN , 1, 2 ,
  • Weidong WANG 1, 2 ,
  • Meirong LI 1, 2 ,
  • Zhao WANG 1, 2
Expand
  • 1. Shaanxi Meteorological Service Center of Agricultural Remote Sensing and Economic Crops,Xi’an 710016,Shaanxi,China
  • 2. China Meteorological Administration Eco⁃Environment and Meteorology for the Qinling Mountains and Loess Plateau Key Laboratory,Xi’an 710016,Shaanxi,China

Received date: 2025-04-27

  Revised date: 2025-08-05

  Online published: 2026-05-22

Copyright

© Editorial Department of Plateau Meteorology (CC BY-NC-ND)

Abstract

Thermal infrared remote sensing technology enables the rapid acquisition of land surface temperature (LST) data at both regional and global scales.However, its effectiveness is substantially diminished under cloudy conditions, where it fails to reliably characterize the underlying surface thermal environment.To address the issue of data gaps in the Fengyun-4B (FY-4B) satellite LST remote sensing products in cloud-covered areas, we proposed a multi-source data fusion method based on the eXtreme Gradient Boosting (XGBoost) machine learning algorithm.The method integrated FY-4B LST products with auxiliary datasets, including the CMA Land Data Assimilation System (CLDAS) LST products, meteorological station observations, as well as topographic data and vegetation index, to reconstruct and fuse cloud-covered LST in Shaanxi Province on different typical dates.The results showed that, (1) for selected typical dates, the correlation coefficients between the fused cloud-covered LST and CLDAS LST exceeded 0.91, with both mean absolute errors (MAE) and root mean square errors (RMSE) stable between 2 ℃ and 4 ℃, or reduced by more than 0.5 ℃ compared to clear-sky areas.(2) The fusion method effectively addressed data gaps in cloud-covered areas, while preserving the spatial characteristics of the original FY-4B clear-sky LST.Moreover, the fused results exhibited high spatial consistency with the CLDAS LST across diverse terrains, including the Loess Plateau in Northern Shaanxi, the Guanzhong Plain, and regions characterized by complex topography.(3) Shapley Additive exPlanations (SHAP) analysis revealed that CLDAS LST, latitude and the normalized difference vegetation index emerged as the key feature variables influencing the fusion outcomes, with higher latitudes and areas with sparse vegetation exhibiting pronounced positive contributions to the simulated LST values.For areas situated north of 35°N - 36°N, increased latitude correlated with higher simulated LST values.Conversely, lower normalized difference vegetation index (NDVI) values facilitated higher LST outputs, while NDVI values exceeding 0.2 reverse this contribution direction.(4) Comparative validation across different regions under both cloud-covered and all-weather conditions indicated that the fused LST results were closely aligned with CLDAS LST, with performance in Northern Shaanxi slightly inferior to that in the Guanzhong and Southern Shaanxi regions, the latter two exhibiting comparable and relatively superior accuracy.These regional discrepancies may arise from the combined effects of cloud distribution patterns, topographic complexity, and the model’s sensitivity to local feature variables.The method proposed in this study can provide technical support for operational all-weather land surface temperature monitoring using satellite remote sensing, thereby enhancing the reliability and applicability of satellite-based thermal observations.

Cite this article

Xuting ZHANG , Wenting QUAN , Hui ZHOU , Yuying PAN , Weidong WANG , Meirong LI , Zhao WANG . Fusion of FY-4B Land Surface Temperature Based on XGBoost Algorithm: A Case Study of Shaanxi Province[J]. Plateau Meteorology, 2026 , 45(3) : 920 -934 . DOI: 10.7522/j.issn.1000-0534.2025.00095

1 引言

地表温度(Land Surface Temperature, LST)是表征区域及全球尺度的陆地表面与大气相互作用、 能量交换以及水循环过程中的关键参数, 对气候变化响应评估、 生态环境监测、 农业干旱评价以及城市热环境研究等领域具有重要的指示作用(李召良等, 2016单帅等, 2020段四波等, 2021)。随着卫星对地观测技术的发展, 热红外遥感技术凭借其空间覆盖范围广、 数据获取快速、 反演精度较高等优势, 并具有不破坏地表热环境状态的特点, 逐渐成为获取区域及全球尺度地表温度信息的主要技术手段之一(李召良等, 2016)。以中国于2021年成功发射的新一代静止轨道气象卫星-风云四号B星(FY-4B)(Zhang et al, 2022)为例, 其搭载的先进的静止轨道辐射成像仪(Advanced Geostationary Radiation Imager, AGRI)能够利用热红外遥感技术提供高时空分辨率的晴空条件下地表温度遥感产品, 为我国开展精细化地表热环境监测与研究提供了有力的数据支撑。
然而, 利用热红外遥感技术反演地表温度的一个固有局限性在于, 其通道信号无法有效穿透云层, 导致在有云层覆盖的区域无法直接获取地表温度信息, 从而在地表温度遥感产品中产生大量的无效值或数据空缺, 特别是在多云天气条件下(丁利荣等, 2023段四波等, 2021何坤龙等, 2021)。这种数据的时空不连续性极大地限制了地表温度遥感产品在需要完整空间覆盖和连续时间序列分析的应用场景中的有效性。为应对此挑战, 研究人员提出了多种云下地表温度重建及估算方法, 传统方法主要包括基于时间序列分析的方法(周义等, 2014; Ghafarian Malamiri et al, 2018; Mo et al, 2021)、 基于空间关系插值的方法(周义等, 2013崔晓临等, 2018)、 结合地表能量平衡物理模型的估算方法(周义等, 2013Zeng et al, 2018王斐等, 2019)以及利用相关参数(如气象观测、 地形、 植被等要素)构建统计模型的方法(刘勇洪等, 2024周义等, 2014)。此外, 与具有更强云层穿透能力的被动微波遥感数据进行融合(张晓东, 2021刘勇洪等, 2024)也是常用的途径。
近年来, 机器学习算法因其强大的非线性拟合能力以及处理复杂高维度数据的优势, 在地球科学领域展现出巨大的应用潜力(Zhao et al, 2024)。其中, 以极端梯度提升(XGBoost)、 随机森林(Random Forest, RF)、 LightGBM等为代表的高效、 高性能集成学习算法, 已被广泛应用于遥感产品反演重建(温开祥等, 2020何坤龙等, 2021Zhong et al, 2021Li et al, 2024)和多源数据融合(杨晋云等, 2021张钧民等, 2021贾何佳等, 2022张德军等, 2024Zhang et al, 2024周媛媛等, 2025)等研究中。因此, 基于机器学习算法融合来自不同来源(如陆面同化数据、 观测数据、 遥感数据等)的多源数据信息, 为开展地表温度融合方法研究提供了有效的技术路径。
基于以上论述, 针对FY-4B地表温度遥感产品在云层覆盖区域的数据缺失问题, 提出一种基于XGBoost机器学习算法的多源数据融合框架。研究选取陕西省作为典型区域, 该区域地形地貌复杂多样, 气候特征差异显著, 对全天候地表温度监测具有迫切需求。因此, 本研究基于XGBoost机器学习算法融合多源数据, 重建典型日期的云下地表温度, 并将其与FY-4B晴空数据融合, 生成逐小时全天候地表温度数据; 定量评估地表温度融合精度和效果, 检验其空间分布特征的合理性与一致性; 采用SHAP可解释性方法解析影响地表温度融合模型的关键因子及其相对重要性, 以期为提升国产气象卫星遥感产品的业务化应用水平提供方法支持, 并对完善区域尺度的全天候地表热环境监测业务服务具有重要的实践价值。

2 数据来源与方法介绍

2.1 数据来源

2.1.1  FY-4B地表温度遥感产品

FY-4B地表温度遥感产品(以下简称FY-4B地表温度)来源于风云卫星遥感数据服务网(https: //satellite.nsmc.org.cn/DataPortal/cn/home/index.html), 该产品为业务化实时运行的全圆盘观测地表温度L2级产品, 在生产流程中已通过严格的质量控制。经与国际主流的MODIS地表温度遥感产品的对比检验, 其温度精度在±2.5 K范围内的像元占比约为85%。该产品基于FY-4B/AGRI的两个热红外通道(中心波长为10.8 μm和12.0 μm)数据反演得到晴空条件下的实时地表温度, 时间分辨率为15 min, 空间分辨率为4 km×4 km。选择2024年3 -9月08:00 -17:00(北京时, 下同)的数据进行检验和融合试验, 并对原始数据进行了投影转换、 区域裁切等预处理, 同时保留了云掩膜信息。
为确保模型构建和试验的有效性, 需要对数据日期进行进一步筛选。选取的FY-4B地表温度数据日期需满足以下条件: (1)为检验算法对云下区域的重建能力, 要求每景影像数据中研究区域的有云覆盖像元比例应达到或超过20%; (2)为保证模型有充足的有效样本进行训练, 要求当日数据中晴空像元比例应达到或超过40%; (3)为避免训练样本空间分布不均带来的偏差, 要求云层覆盖尽可能在空间上均匀分布; (4)为满足模型输入要求, 当某日数据满足前3个条件时, 还需同时获取其前一日的数据用于模型训练。根据上述标准, 最终选定用于FY-4B地表温度检验及融合试验的典型日期为2024年5月16日、 6月14日和9月23日。这些日期大致可代表春季(3 -5月)、 夏季(6 -8月)和秋季(9 -11月)的地表温度时空特征。

2.1.2  CLDAS地表温度分析产品

CLDAS地表温度分析产品V2.0为亚洲范围的逐小时0.0625°×0.0625°的地表温度分析产品, 该数据集在中国区域的精度优于国际同类陆面模式产品(师春香等, 2019杨富燕等, 2023), 常被用作网格化地表温度的“相对真值”, 用于遥感数据的交叉检验和数据融合(孙帅等, 2017)。本研究使用的CLDAS地表温度分析产品(以下简称CLDAS地表温度)由国家气象信息中心提供, 选取经过裁切处理后的2024年5月16日、 6月14日、 9月23日(以及对应的前一日)08:00 -17:00的逐小时实时产品, 空间分辨率为0.0625°×0.0625°。

2.1.3 气象站点地面观测数据

气象站点地表温度观测数据来源于国家气象信息中心, 数据涵盖研究区域98个国家基本气象站。选取与典型日期(及前一日)对应的逐小时地表温度观测数据。所有数据均经过严格的质量控制, 剔除了明显的异常值和缺测记录。

2.1.4 其他辅助数据

数字高程模型(Digital Elevation Model, DEM)数据来源于SRTM DEM数据集, 原始空间分辨率为90 m。坡度和坡向数据由SRTM DEM数据加工生成。MODIS NDVI数据和土地覆盖类型数据来源于NASA数据服务网站(https: //ladsweb.modaps.eosdis.nasa.gov)。其中, NDVI数据包括MODIS植被指数产品MOD13A2和MYD13A2, 时间分辨率均为16 d, 空间分辨率为1 km; 土地覆盖类型数据为MODIS土地覆盖类型产品MCD12Q1, 空间分辨率为500 m。此外, 还使用了其他相关数据, 包括像元中心的经度、 纬度以及日积时(即当日的第几个小时)等。
研究区域概况及气象站点分布如图1所示。文中涉及的地图是基于中华人民共和国自然资源部地图技术审查中心标准地图服务系统下载的审图号为GS(2019)3333号的标准地图制作, 底图无修改。
图1 研究区域概况及气象站点分布

Fig.1 Study area and observation stations distribution

2.2 研究方法

2.2.1 数据时空匹配

为确保多源数据在空间上的一致性, 利用ArcGIS地理信息系统软件对CLDAS地表温度以及其他辅助数据进行预处理, 包括数据质量控制、 异常值剔除、 投影转换、 镶嵌和裁剪等操作, 并将所有数据重采样统一到与FY-4B地表温度数据相同的空间分辨率, 以便用于格点检验及模型构建。此外, 利用双线性插值方法提取气象站点对应像元位置的FY-4B地表温度、 CLDAS地表温度以及地表温度融合结果, 用于站点检验及模型效果对比分析。
为了最大程度保持时间上的同步性, FY-4B地表温度、 CLDAS地表温度和气象站点地面观测数据均选取每个数据日期内逐小时整点时刻的数据, 以减少时间差异可能引入的误差。对于时间分辨率较低的NDVI数据, 则选用距离各典型日期最近的1期产品。

2.2.2  XGBoost机器学习算法

XGBoost是一种高效、 灵活且可扩展的梯度提升决策树(Gradient Boosting Decision Tree, GBDT)机器学习算法(Chen et al, 2016)。XGBoost通过迭代方式构建一系列决策树模型, 每一步优化的目标是最小化损失函数, 并通过二阶梯度信息提升收敛速度和稳定性。同时, 为防止模型过拟合, XGBoost在目标函数中加入了正则化项, 用于控制模型复杂度。凭借其高效率、 可扩展性、 高准确度和良好的泛化能力, XGBoost在机器学习领域得到了广泛的应用。有关算法的具体数学原理和计算公式, 可参考Chen et al(2016)的研究。

2.2.3 特征变量可解释性方法

SHAP(SHapley Additive explanations)是一种用于解释机器学习算法模型预测结果的工具和方法(Lundberg et al, 2017)。该方法基于合作博弈论中的SHapley值概念, 核心思想是将模型对每个样本的预测值分解为各个特征变量对该预测值的贡献之和。通过计算每个特征变量的 SHAP值, 可以量化特征变量在模型预测中的重要性, 以及分析其取值变化如何影响模型的输出, 有效弥补了许多复杂机器学习模型(常被称为“黑箱”模型)在可解释性方面的不足。有关方法的具体数学原理和计算公式, 可参考Lundberg et al(2017)的研究。

2.2.4  FY-4B地表温度融合方法

FY-4B云下地表温度重建及融合技术流程如图2所示。首先, 对选定典型日期的多源地表温度数据以及各类辅助数据进行预处理, 包括异常值处理、 筛选晴空或云下像元、 重采样空间匹配和最临近时间匹配等。其次, 构建与地表温度变化关系密切的因子作为模型特征变量, 主要包括反映植被覆盖对地表蒸散和温度调节作用的NDVI、 反映下垫面类型和地表热力属性的土地覆盖类型、 影响太阳辐射接收和热量分布的地形因子(经纬度、 高程、 坡度和坡向等)、 辅助表征地表温度日变化特征的日积时、 反映时滞影响的前一日地表温度以及作为强相关先验信息的CLDAS地表温度等。
图2 研究技术路线

Fig.2 Flow chart of the framework in this study

然后, 以晴空条件下的FY-4B地表温度作为目标变量, 利用XGBoost机器学习算法对晴空条件下的CLDAS地表温度及其他特征变量进行模型训练。所有样本数据随机划分为训练集(70%)和测试集(30%)。在模型验证和超参数寻优方面, 采用5折交叉验证(5-fold Cross-Validation)结合贝叶斯优化(Bayesian Optimization)进行。具体而言: 将训练集随机划分为5个大小相近且不相交的子集(即“折”); 每一轮验证中, 选取其中4个子集用于训练模型, 剩余1个子集用作独立的验证集, 以评估模型在该折上的性能; 该过程重复5次, 直到每个子集都被用作验证集一次。在此交叉验证框架下, 通过贝叶斯优化迭代搜索, 使5次验证集上平均均方根误差RMSE(Root Mean Square Error)最小化, 从而获得每日最优的模型超参数(如学习率、 树的数量和树的最大深度等)。随后, 将有云条件下不同时次的各特征变量输入到训练得到的最优模型, 模拟得到相应时次的云下地表温度。
最后, 将模拟得到的云下地表温度与对应时次晴空条件下的FY-4B地表温度进行融合。具体而言, 保留FY-4B地表温度中晴空区域的原始值, 而在云下缺值区域使用重建后的地表温度模拟值进行填补, 从而输出逐小时的全天候地表温度融合结果。此外, 采用SHAP值评价最优模型中特征变量重要性, 并分析关键特征变量的依赖性。同时, 利用气象站点观测数据对最终的地表温度融合结果进行站点尺度的精度验证分析。

2.2.5 检验评估指标

不同地表温度数据的精度验证分析使用相关系数r、 平均绝对误差MAE(Mean Absolute Error)、 均方根误差RMSE、 中心化均方根误差CRMSE(Centralized Root Mean Square Error)等指标。计算公式如下:
r = i = 1 n M i - M ¯ O i - O ¯ i = 1 n M i - M ¯ 2 i = 1 n O i - O ¯ 2
M A E = 1 n i = 1 n M i - O i
R M S E = 1 n i = 1 n M i - O i 2
C R M S E = 1 n i = 1 n M i - M ¯ - O i - O ¯ 2
式中: 对于格点检验而言, Oi 为CLDAS地表温度; Mi 为融合前后FY -4B地表温度; O ¯ M ¯分别为CLDAS地表温度、 融合前后FY -4B地表温度的平均值。对于站点检验而言, Oi 为站点观测地表温度; Mi 为融合前后FY -4B地表温度或CLDAS地表温度; O ¯ M ¯分别为站点观测地表温度、 融合前后FY -4B地表温度或CLDAS地表温度的平均值。n为样本数量。

3 结果分析

3.1  FY-4B地表温度格点检验

为了检验FY -4B地表温度在晴空条件下的可靠性, 选取了2024年5月16日、 6月14日、 9月23日3个典型日期08:00 -17:00数据, 将其与CLDAS地表温度进行对比分析(图3)。从图3中可以看出, 两种地表温度数据之间具有很强的正相关关系, 相关系数可达0.9左右。相比之下, 9月23日的MAE和RMSE相对更小, 分别为2.34 ℃和2.97 ℃, 其他两个日期的误差则相对较大, MAE和RMSE最大可达5.07 ℃和5.92 ℃。同时, 从散点密度分布上也能发现, FY -4B地表温度相对于CLDAS地表温度在不同程度上表现出一致性偏低的现象, 特别是在地表温度的高值区域。
图3 不同典型日期下的晴空FY-4B地表温度与CLDAS地表温度格点检验对比

Fig.3 Grid-based comparison of clear-Sky FY-4B LST and CLDAS LST on different typical dates

3.2 地表温度融合效果

利用XGBoost机器学习算法最优模型重建及融合后的云下区域地表温度结果与对应格点CLDAS地表温度进行对比分析(图4)。从图4中可以看出, 与图3的晴空区域结果对比, 重建后的云下区域地表温度与CLDAS地表温度的相关性在不同日期均有一定的提升, 相关系数均在0.91以上, 其中9月23日可达0.95。同时, MAERMSE相较于晴空区域也有所减小, 尤其是6月14日和9月23日, 误差范围保持在2~4 ℃, 5月16日的误差也有超过0.5 ℃的降幅。从散点密度分布上可以看到, 虽然融合后的云下地表温度在高值区仍然存在一定程度的低估现象, 但总体上其与CLDAS地表温度的一致性相对更高, 表明经过重建后的云下地表温度能够较好地保留FY -4B地表温度原始数据特征, 同时, 整体误差水平可能进一步减小。
图4 不同典型日期下的云下FY-4B地表温度融合结果与CLDAS地表温度格点检验对比

Fig.4 Grid-based comparison of FY-4B fused fused cloud-coverd LST and CLDAS LST on different typical dates

为了直观反映出融合生成的全天候地表温度在空间连续性及分布特征上的表现, 对典型日期08:00 -17:00逐3 h的FY -4B地表温度原始产品、 CLDAS地表温度和融合结果进行对比分析(图5~7)。从图5~7中可知, 在不同日期和不同时次, FY-4B地表温度原始产品均存在超过20%的区域被云层覆盖, 导致无法获取有效的地表温度遥感监测数据, 这种情况对于依赖连续时空数据的卫星遥感全天候监测业务服务带来了较大限制, 特别是夏季高温或冬季寒潮等极端天气发生期间。经过融合后得到的全天候地表温度结果能够有效填补云下区域的数据空缺, 并在晴空区域最大限度地保留了FY-4B地表温度原始产品的数据特征, 整体上与CLDAS地表温度展现出较高的空间分布相似性。特别是在分析陕北黄土高原、 关中平原等区域午后的快速升温及高温分布特征, 以及秦巴山区等复杂地形区域的地表温度空间异质性方面, 融合结果表现相对较好, 这些区域的地表温度受土地覆盖类型、 海拔、 植被覆盖等多种因素的显著影响, 融合结果能够较为清晰地反映出这些因素对地表温度空间格局的影响, 显示出该融合结果具有较强的潜在业务服务应用价值。
图5 2024年5月16日FY-4B地表温度(a~d)、 CLDAS地表温度(e~h)和地表温度融合结果(i~l)逐3 h空间分布对比

Fig.5 Spatial distribution comparison of FY-4B LST (a~d), CLDAS LST (e~h) and fused LST (i~l) every 3 h on May 16, 2024

图6 2024年6月14日FY-4B地表温度(a~d)、 CLDAS地表温度(e~h)和地表温度融合结果(i~l)逐3 h空间分布对比

Fig.6 Spatial distribution comparison of FY-4B LST (a~d), CLDAS LST (e~h) and fused LST (i~l) every 3 h on June 14, 2024

图7 2024年9月23日FY-4B地表温度(a~d)、 CLDAS地表温度(e~h)和地表温度融合结果(i~l)逐3 h空间分布对比

Fig.7 Spatial distribution comparison of FY-4B LST (a~d), CLDAS LST (e~h) and fused LST (i~l) every 3 h on September 23, 2024

然而, 也应该看到在某些时段和特定区域, 融合结果与CLDAS地表温度之间仍存在数值偏高或偏低的现象, 这种偏差在空间分布图上较为明显。例如, 在5月16日和6月14日的午后时段, 陕北北部部分地区的融合地表温度呈现偏高现象, 而关中中部和陕南大部分地区的融合地表温度则相对偏低。

3.3 地表温度融合模型可解释性

通过对不同日期XGBoost机器学习算法最优模型的特征变量进行SHAP值分析, 评估各特征的重要性排名, 并探讨特征变量取值对模型的影响, 可以明确哪些特征变量对模型模拟能力贡献较大, 以及其是如何影响模型的。不同日期模型中SHAP值居前5的重要特征变量及其对模型输出的影响分布如图8所示。总体来看, CLDAS地表温度(包括当日和前一日)对模型模拟结果的影响最为明显。此外, 纬度和NDVI也频繁出现在重要特征变量序列中, 对模型输出具有相对较高的影响。进一步分析特征变量取值对模型输出的具体影响(图8中的点代表训练样本, 点的横向宽度表示样本的密集程度, 颜色由蓝到红表示特征变量值由小到大), 对于影响最大的CLDAS地表温度特征, 其SHAP值随着CLDAS地表温度本身值的升高(红色点)或降低(蓝色点)而相应增大或减小, 表明较高的CLDAS地表温度输入值倾向于提高模型的地表温度模拟结果, 反之亦然。对于纬度特征, 其取值越大(越偏北), 对模型输出的贡献多为正向, 意味着模型倾向于在纬度较高的区域模拟出更高的地表温度。表明模型捕捉到了研究区域纬度变化的地理分异规律, 即北部(陕北黄土高原地区)地表多为裸土和低矮植被, 物理性质表现为热惯量小、 比热容低, 在白天太阳辐射下升温迅速; 而南部(陕南秦巴山区)主要为高植被覆盖的林区, 蒸散作用强烈, 对地表有显著的降温效应。对于NDVI特征, 其取值越大, 对模型输出的贡献多为负向, 这清晰地反映了植被在地表温度调节中的作用。高NDVI值代表茂密的植被覆盖, 其通过冠层遮蔽减少了到达地表的太阳辐射, 同时通过强烈的蒸散作用消耗大量热量, 从而有效降低地表温度。
图8 不同典型日期下的最优模型特征变量重要性排名及取值对模型的影响

Fig.8 Importance ranking of key feature variables and their effect on model performance on different typical dates

为了更深入地理解特征间的交互作用及其对模型的影响, 可以通过SHAP特征变量依赖图(SHAP dependence plots)进行分析。以5月16日为例(其他日期结果具有相似性), 选取对模型影响最为明显的纬度和NDVI两个特征, 绘制不同CLDAS地表温度下的SHAP特征变量依赖图(图9)。从纬度与CLDAS地表温度对模型输出的联合影响来看, 当纬度在35°N -36°N以北时, 无论CLDAS地表温度高值或低值, 对应的SHAP值普遍为正, 表明模型将“高纬度”识别为一个强烈的、 独立的增温物理信号, 其影响的权重在某些情况下甚至超过了CLDAS地表温度背景场自身的变化。从NDVI与CLDAS地表温度对模型输出的联合影响来看, 当NDVI在0.2以下时, 随着NDVI的减小, SHAP值呈现正向且持续增大的趋势, 表明在植被稀疏区, 地表裸露程度是升温的主导物理因素, 裸土效应越强, 增温贡献越大; 而当NDVI大于0.2时, SHAP值转为负向, 且随NDVI增大而减小, 表明在植被覆盖区, 植被的蒸散降温物理效应成为主导, NDVI越高, 降温作用越强。同时, 结合CLDAS地表温度的变化来看, 高CLDAS地表温度值对模型模拟的影响通常大于低值, 且这种影响程度随着NDVI的增大或减小而进一步增强。
图9 2024年5月16日最优模型特征变量纬度与CLDAS地表温度(a)及NDVI与CLDAS地表温度(b, 单位: ℃)的依赖性分析

Fig.9 Dependency analysis between latitude and CLDAS LST (a), and between NDVI and CLDAS LST (b, unit: ℃) on May 16, 2024

总体来看, 模型模拟结果的倾向性表现为, 在纬度较高、 植被覆盖较少的区域, 模型模拟输出的地表温度值更容易偏高; 而在纬度较低、 植被覆盖较多的区域, 模型模拟输出的地表温度值更容易偏低。这一特点在CLDAS地表温度本身就处于高值区时表现得更为明显。同时, 可解释性分析也表明, 本研究构建的模型并非对已有数据的简单统计拟合, 而是有效学习并量化了研究区域复杂地理环境下, 地表温度受下垫面特征主导的关键调控机制, 为融合结果的可靠性提供了有力支撑。

3.4 地表温度融合结果站点检验

使用泰勒图(Taylor diagram)直观展示了3个典型日期陕西省全省范围以及陕北、 关中和陕南地区, 不同天空状况(晴空、 云下和全天候)下的FY-4B地表温度融合结果与CLDAS地表温度相较于站点观测地表温度的检验结果(图10)。泰勒图中, 各散点表示不同天空状况和不同数据源的地表温度, 散点到原点的距离表示相对于站点观测值的标准化标准差, 散点与横轴的夹角表示相关系数, 散点到参考点(图中黑色实心点, 代表站点观测值, 其标准化标准差为1, 相关系数为1)的距离则代表标准化CRMSE。根据泰勒图的原理, 散点越接近参考点, 其检验效果越理想(即相关系数越高、 CRMSE越小、 与参考点的标准化标准差越接近)。
图10 不同典型日期下陕西省(a, e, i)、 陕北(b, f, j)、 关中(c, g, k)、 陕南(d, h, l)地区的地表温度融合结果及CLDAS地表温度在晴空、 云下和全天候天气下与站点观测地表温度的泰勒图对比

图中红色虚线为标准化后的中心化均方根误差

Fig.10 Taylor diagram comparison of fused LST, CLDAS LST with site-observed LST under clear-sky, cloudy and all-weather conditions for Shaanxi Province (a, e, i), Northern Shaanxi (b, f, j), Guanzhong (c, g, k), and Southern Shaanxi (d, h, l) regions on different typical dates.The red dashed line indicates CRMSE

从全省范围的总体表现来看, 不同日期、 不同天空状况以及不同数据源的地表温度与站点观测地表温度的相关系数大体集中在0.7~0.9, 标准化标准差均低于站点观测值, CRMSE集中在0.6 ℃附近。在云下和全天候条件下, 地表温度融合结果都与相同条件下的CLDAS地表温度的检验效果相近, 尤其是在9月23日, 云下地表温度数据检验精度甚至略优于晴空下的结果。从不同区域的检验结果来看, 不同天空状况和不同数据源的地表温度的空间分布总体与全省范围表现基本一致。在云下及全天候条件下, 地表温度融合结果与站点观测值的相关系数均保持在0.7以上, 标准化标准差波动较为稳定且均低于站点观测值, CRMSE多集中在0.4~0.6 ℃的范围内。整体来看, 云下及全天候条件下的地表温度融合结果与晴空条件下的地表温度数据或者CLDAS地表温度数据的散点比较集中, 检验效果基本保持同一水平。其中, 地表温度融合结果在陕北地区的表现相对较差, 关中和陕南地区较为接近, 相对更好。同时, 与其他日期相比, 9月23日的地表温度融合结果的检验效果表现最优, 其散点更接近于代表站点观测地表温度的参考点, 特别是在关中和陕南地区。

4 讨论

本研究选取不同季节特征的典型日期开展地表温度融合试验。结果表明, 所提出的融合方法生成的全天候地表温度在与格点化的CLDAS地表温度和离散的站点观测地表温度的对比检验中, 均表现出较好的模拟效果。表明融合方法具有较高的潜在业务服务应用价值, 能够为需要连续时空覆盖的地表温度遥感监测应用提供有效的数据支持。值得注意的是, 9月23日的融合结果(尤其是在云下区域占比较高的关中和陕南地区)表现出较高的精度, 这可能部分归因于当日云层主要覆盖在关中和陕南地区, 导致这些区域的地表温度主要由模型模拟生成, 而陕北地区大部分为晴空, 融合结果主要采用了原始的FY-4B晴空地表温度。这一现象表明, 在某些情况下, 基于多源数据和机器学习算法模型模拟生成的地表温度结果在一定程度上具有更好的表现, 甚至可能在相同天空状况下优于CLDAS地表温度。
融合结果在不同季节的典型日期及不同地区间表现出一定差异, 反映了模型对地表热力过程季节性变化的响应能力。从季节尺度来看, 5月16日和6月14日的融合结果误差相对较大, 主要是因为该时段太阳辐射较强, 地表温度普遍偏高, 且温度的空间异质性也最明显, 导致模型模拟的微小偏差也容易被放大; 相比之下, 秋季地表热力环境较为稳定, 9月23日模型精度最高。同时, 这些季节性影响在不同地区表现出更清晰的差异。陕北黄土高原地区(尤其是陕北北部)地表温度对季节性太阳辐射变化最为敏感, 夏季升温迅速且温度较高, 模型能够很好地捕捉到这一特征; 陕南秦巴山区受高植被覆盖影响, 整个生长季都处在相对稳定的“冷岛”中, 地表温度季节性波动相对平缓, 模型表现较为稳定且良好; 关中平原地区复杂下垫面不仅受到季节节律和地形因素影响, 还受到人类活动(如“城市热岛”效应)的显著调控, 为模型精准模拟带来更大挑战。因此, 未来的研究应用中, 针对特定季节或特定地区进行模型优化, 可能会进一步提升融合结果精度。
CLDAS地表温度作为驱动融合模型的核心特征变量之一, 其精度和稳定性很大程度上会影响云下地表温度重建的效果。选择CLDAS地表温度作为关键特征变量, 主要基于其作为国内高质量、 高价值、 时空连续的陆面同化分析产品的优势, 能够为模型提供可靠、 无云遮挡的全覆盖背景场(师春香等, 2019)。同时, CLDAS地表温度分析产品V2.0为业务实时运行产品, 数据滞后时间约1 h, 时效性可满足大多数业务化应用的需求。另外, 本研究方法实质上是利用XGBoost算法学习FY-4B地表温度与CLDAS地表温度之间的“偏差”关系, 以及这种偏差如何受到地形、 植被、 土地覆盖等辅助变量的影响。从SHAP分析结果也可以看出, 虽然CLDAS地表温度是模型贡献最大的特征变量, 但纬度、 NDVI等辅助变量也发挥了重要作用, 模型可以有效学习不同下垫面对CLDAS地表温度所提供背景场的调节和订正作用, 从而生成更符合FY-4B遥感产品空间细节特征的地表温度分布。因此, 模型最终学习到的是一种基于多因素物理影响的“订正”模式, 而非对CLDAS地表温度数值的简单“记忆”。
融合试验中误差的一个重要来源是FY-4B地表温度本身存在的系统性偏差。如图3所示, 晴空条件下, FY-4B地表温度在前两个典型日期相较于CLDAS地表温度存在明显的系统性偏低现象, 尤其是在高温区。这种固有偏差不可避免地被融合模型学习并传递到云下区域的重建结果中, 具体表现为图5图6中, 午后关中和陕南大部分地区的融合地表温度同样较CLDAS地表温度偏低。未来研究中可考虑在模型训练前对FY-4B地表温度进行偏差订正, 以一定程度上减弱误差来源。此外, 局部区域的误差分布与模型对关键特征的响应密切相关。SHAP分析显示, 高纬度和低NDVI对模型输出有正向贡献, 这一模式在陕北黄土高原地区可能被过度放大, 导致模型倾向于模拟更高的地表温度; 而在陕南秦巴山区, 高NDVI的负向贡献可能过于显著, 造成模型模拟的地表温度偏低。表明尽管模型能够学习到主要物理规律, 但在地形和植被格局复杂的局部区域, 仍可能出现“过拟合”现象, 模型的适用性有待进一步提升。
3.4节中采用了气象站点观测地表温度对遥感产品和融合结果的精度和质量进行检验评价, 然而, 由于地面站点观测仪器的不确定性、 站点观测的空间代表性、 站点数量的局限性以及卫星像元的代表性等因素, 都可能在一定程度上影响检验结果的真实性(马晋等, 2017闵文彬等, 2015王圆圆等, 2014)。此外, 对于单点观测的地表温度随时间的快速变化, 大范围空间的遥感产品和融合结果在捕捉这种快速动态响应方面可能存在能力限制。后续研究中可以考虑引入更多来源的地表温度数据, 并结合遥感真实性检验站网建设, 以扩充用于检验的“真值”样本量和代表性, 从而进一步提升检验结果的可靠性和适用性。
本研究初步实现了云下地表温度数据的有效重建和融合, 提升了数据时空连续性。然而, 对于FY-4B地表温度自身可能存在的系统性误差以及其他随机误差或偏差的订正工作尚未深入展开。在此基础上, 基于订正后的数据进一步优化融合方法, 并系统对比和检验其融合效果与精度, 将成为下一阶段研究的重点方向。未来还将关注方法在不同气候和地理特征区域的迁移性应用分析, 以评估和提升融合模型的泛化能力。

5 结论

本研究基于XGBoost机器学习算法融合多源数据, 重建典型日期的陕西省云下地表温度, 并将其与FY-4B晴空数据融合, 定量评估地表温度融合精度和效果, 利用机器学习可解释性方法解析影响融合模型的关键因子及其相对重要性, 得到以下主要结论:
(1) 典型日期融合后的云下地表温度与作为参考的CLDAS地表温度展现出高相关性(r>0.91), 且MAE和RMSE稳定在2~4 ℃范围内或相比晴空区域降低0.5 ℃以上。融合方法有效填补了云层覆盖区域的数据空缺, 同时保留了FY-4B晴空数据的原始空间特征, 并与CLDAS地表温度在陕北黄土高原、 关中平原以及复杂地形区域的空间分布一致性较高。
(2) 通过SHAP可解释性分析发现, 除CLDAS地表温度(当日及前一日)外, NDVI和纬度是影响融合模型输出的关键特征变量。CLDAS地表温度取值高低直接正相关地影响模型模拟的地表温度结果。高纬度、 低植被覆盖对地表温度模拟值的具有显著的正向贡献, 当纬度位于35°N -36°N以北时, 纬度越高越有利于模型输出更高的地表温度值; NDVI越小也越有利于模型输出更高的地表温度值, 而当NDVI大于0.2时, 贡献方向则相反。
(3) 典型日期云下和全天候条件下的地表温度融合结果都与相同条件下的CLDAS地表温度检验效果相近。不同区域的表现与全省整体趋势基本一致。地表温度融合结果在陕北地区的表现略逊于关中和陕南地区, 后两者的表现较为接近且相对更好。区域差异可能受到云层分布格局、 地形复杂度以及模型对局部特征变量响应敏感性等多重因素的共同影响。
Chen T Q Guestrin C2016.XGBoost: A scalable tree boosting system[C].//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York, NY, USA: Association for Computing Machinery: 785-794.

Ghafarian Malamiri H R Rousta I Olafsson H, et al, 2018.Gap-filling of MODIS time series land surface temperature (LST) products using Singular Spectrum Analysis (SSA)[J].Atmosphere9(9): 334.DOI: 10.3390/atmos9090334 .

Li Y X Zhu S Y Zhang G X, et al, 2024.Reconstruction of hourly FY-4A AGRI land surface temperature under cloud-covered conditions using a hybrid method combining spatial and temporal information[J].Remote Sensing16(10): 1777.DOI: 10.3390/rs16101777 .

Lundberg S M Lee S I2017.A unified approach to interpreting model predictions[C].//Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook, NY, USA: Curran Associates Inc.: 4768-4777.DOI: 10.5555/3295222.3295230 .

Mo Y P Xu Y M Chen H J, et al, 2021.A review of reconstructing remotely sensed land surface temperature under cloudy conditions[J].Remote Sensing13(14): 2838.DOI: 10.3390/rs13142838 .

Zeng C Long D Shen H F, et al, 2018.A two-step framework for reconstructing remotely sensed land surface temperatures contaminated by cloud[J].ISPRS Journal of Photogrammetry and Remote Sensing, 141: 30-45.DOI: 10.1016/j.isprsjprs.2018. 04.005 .

Zhang H H Loaiciga H A Sauter T2024.A novel fusion-based methodology for drought forecasting[J].Remote Sensing16(5): 828.DOI: 10.3390/rs16050828 .

Zhang P Xu Z Guan M, et al, 2022.Progress of Fengyun meteorological satellites since 2020[J].Chinese Journal of Space Science42(4): 724-732.DOI: 10.11728/cjss2022.04.yg14 .

Zhao T J Wang S Ouyang C J, et al, 2024.Artificial intelligence for geoscience: Progress, challenges, and perspectives[J].The Innovation5(5): 100691.DOI: 10.1016/j.xinn.2024.100691 .

Zhong Y M Meng L K Wei Z S, et al, 2021.Retrieval of all-weather 1km land surface temperature from combined MODIS and AMSR2 data over the Tibetan Plateau[J].Remote Sensing13(22): 4574.DOI: 10.3390/rs13224574 .

崔晓临, 程贇, 张露, 等, 2018.基于DEM修正的MODIS地表温度产品空间插值[J].地球信息科学学报20(12): 1768-1776.DOI: 10.12082/dqxxkx.2018.180340.Cui X L

Cheng Y Zhang L, et al, 2018.Spatial interpolation of MODIS land surface temperature products based on DEM correction[J].Journal of Geo-information Science20(12): 1768-1776.DOI: 10.12082/dqxxkx.2018.180340 .

单帅, 沈润平, 师春香, 等, 2020.中国北部积雪区冬季地表温度和2m气温再分析数据评估[J].高原气象39(1): 37-47.DOI: 10.7522/j.issn.1000-0534.2019.00003.Shan S

Shen R P Shi C X, et al, 2020.Evaluation of land surface temperature and 2m air temperature from five reanalyses datasets across North China in winter[J].Plateau Meteorology39(1): 37-47.DOI: 10.7522/j.issn.1000-0534.2019.00003 .

丁利荣, 周纪, 张晓东, 等, 2023.全天候地表温度遥感获取进展与挑战[J].遥感学报27(7): 1534-1553.DOI: 10.11834/jrs.20211323.Ding L R

Zhou J Zhang X D, et al, 2023.Estimation of all-weather land surface temperature with remote sensing: Progress and challenges[J].National Remote Sensing Bulletin27(7): 1534-1553.DOI: 10.11834/jrs.20211323 .

段四波, 茹晨, 李召良, 等, 2021.Landsat卫星热红外数据地表温度遥感反演研究进展[J].遥感学报25(8): 1591-1617.DOI: 10.11834/jrs.20211296.Duan S B

Ru C Li Z L, et al, 2021.Reviews of methods for land surface temperature retrieval from Landsat thermal infrared data[J].National Remote Sensing Bulletin25(8): 1591-1617.DOI: 10.11834/jrs.20211296 .

何坤龙, 赵伟, 刘晓辉, 等, 2021.云雾覆盖下地表温度重建机器学习模型的训练集敏感性分析[J].遥感学报25(8): 1722-1734.DOI: 10.11834/jrs.20211236.He K L

Zhao W Liu X H, et al, 2021.Sensitivity analysis of the training set to the performance of the machine learning-based land surface temperature reconstruction for cloud covered pixels[J].National Remote Sensing Bulletin25(8): 1722-1734.DOI: 10.11834/jrs.20211236 .

贾何佳, 李谢辉, 王磊, 等, 2022.基于机器学习的西南地区遥感干旱监测与评估[J].高原气象41(6): 1572-1582.DOI: 10.7522/j.issn.1000-0534.2022.00006.Jia H J

Li X H Wang L, et al, 2022.Remote sensing drought monitoring and assessment in Southwestern China based on machine learning[J].Plateau Meteorology41(6): 1572-1582.DOI: 10.7522/j.issn.1000-0534.2022.00006 .

李召良, 段四波, 唐伯惠, 等, 2016.热红外地表温度遥感反演方法研究进展[J].遥感学报20(05): 899-920.DOI: 10.11834/jrs.20166192.Li Z L

Duan S B Tang B H, et al, 2016.Review of methods for land surface temperature derived from thermal infrared remotely sensed data[J].National Remote Sensing Bulletin20(05): 899-920.DOI: 10.11834/jrs.20166192 .

刘勇洪, 翁富忠, 徐永明, 等, 2024.基于FY-3D卫星的微波与光学陆表温度融合研究[J].气象50(1): 1-17.DOI: 10.7519/j.issn.1000-0526.2023.092601.Liu Y H

Weng F Z Xu Y M, et al, 2024.Fusion of microwave and optical land surface temperature based on FY-3D satellite[J].Meteorological Monthly50(1): 1-17.DOI: 10.7519/j.issn.1000-0526.2023.092601 .

马晋, 周纪, 刘绍民, 等, 2017.卫星遥感地表温度的真实性检验研究进展[J].地球科学进展32(6): 615-629.DOI: 10.11867/j.issn.1001-8166.2017.06.0615.Ma J

Zhou J Liu S M, et al, 2017.Review on validation of remotely sensed land surface temperature[J].Advance in Earth Science32(6): 615-629.DOI: 10.11867/j.issn.1001-8166.2017.06.0615 .

闵文彬, 李跃清, 周纪, 2015.青藏高原东侧MODIS地表温度产品验证[J].高原气象34(6): 1511-1516.DOI: 10.7522/j.issn.1000-0534.Min W B

Li Y Q Zhou J2015.Validation of MODIS land surface temperature products in east of the Qinghai-Xizang Plateau[J].Plateau Meteorology34(6): 1511-1516.DOI: 10.7522/j.issn.1000-0534 .

师春香, 潘旸, 谷军霞, 等, 2019.多源气象数据融合格点实况产品研制进展[J].气象学报77(4): 774-783.DOI: 10.11676/qxxb2019.043.Shi C X

Pan Y Gu J X, et al, 2019.A review of multi-source meteorological data fusion products[J].Acta Meteorologica Sinica77(4): 774-783.DOI: 10.11676/qxxb2019. 043 .

孙帅, 师春香, 梁晓, 等, 2017.不同陆面模式对我国地表温度模拟的适用性评估[J].应用气象学报28(6): 737-749.DOI: 10.11898/1001-7313.20170609.Sun S

Shi C X Liang X, et al, 2017.Assessment of ground temperature simulation in China by different land surface models based on station observations[J].Journal of Applied Meteorological Science28(6): 737-749.DOI: 10.11898/1001-7313.20170609 .

王斐, 覃志豪, 樊伟, 等, 2019.云下地表温度与辐射变化关系的定量分析[J].遥感学报23(6): 1113-1122.DOI: 10.11834/jrs.20198151.Wang F

Qin Z H Fan W, et al, 2019.Quantitative analysis between land surface temperature and radiation covered by clouds[J].National Remote Sensing Bulletin23(6): 1113-1122.DOI: 10.11834/jrs.20198151 .

王圆圆, 闵文彬, 2014.西藏林芝地区混合像元MODIS地表温度产品验证[J].应用气象学报25(6): 722-730.

Wang Y Y Min W B2014.MODIS/LST product validation for mixed pixels at Linzhi of Tibet[J].Journal of Applied Meteorological Science25(6): 722-730.

温开祥, 李勇, 王华, 等, 2020.基于遥感和机器学习的内陆水体水深反演技术[J].热带地理40(2): 314-322.DOI: 10.13284/j.cnki.rddl.003237.Wen K X

Li Y Wang H, et al, 2020.Estimating inland water depth based on remote sensing and machine learning technique[J].Tropical Geography40(2): 314-322.DOI: 10.13284/j.cnki.rddl.003237 .

杨富燕, 彭芳, 于飞, 等, 2023.CLDAS温湿产品在贵州的适用性评估及订正[J].高原气象42(2): 472-482.DOI: 10.7522/j.issn.1000-0534.2021.00064.Yang F Y

Peng F Yu F, et al, 2023.Evaluation of applicability and correction for the CLDAS temperature and relative humidity products in Guizhou Province[J].Plateau Meteorology42(2): 472-482.DOI: 10.7522/j.issn.1000-0534.2021.00064 .

杨晋云, 张莎, 白雲, 等, 2021.基于机器学习融合多源遥感数据模拟SPEI监测山东干旱[J].中国农业气象42(3): 230-242.DOI: 10.3969/j.issn.1000-6362.2021.03.007.Yang J Y

Zhang S Bai Y, et al, 2021.SPEI simulation for monitoring drought based machine learning integrating multi-source remote sensing data in Shandong[J].Chinese Journal of Agrometeorology42(3): 230-242.DOI: 10.3969/j.issn.1000-6362.2021.03.007 .

张德军, 宏观, 杨世琦, 等, 2024.基于多源信息的遥感综合干旱监测模型[J].高原气象43(6): 1507-1519.DOI: 10.7522/j.issn.1000-0534.2024.00025.Zhang D J

Hong G Yang S Q, et al, 2024.An integrated remote sensing drought monitoring model based on multi-source information[J].Plateau Meteorology43(6): 1507-1519.DOI: 10.7522/j.issn.1000-0534.2024.00025 .

张钧民, 阮惠华, 许剑辉, 等, 2021.基于XGBoost的多源降水数据融合方法研究[J].热带地理41(4): 845-856.DOI: 10.13284/j.cnki.rddl.003372.Zhang J M

Ruan H H Xu J H, et al, 2021.An XGBoost-merging method for high-resolution daily precipitation estimation for a regional rainstorm event[J].Tropical Geography41(4): 845-856.DOI: 10.13284/j.cnki.rddl.003372 .

张晓东, 2021.多源遥感协同下的全天候地表温度估算研究[D].成都: 电子科技大学.DOI: 10.27005/d.cnki.gdzku.2020. 004684.Zhang X D, 2021.Estimation of all-weather land surface temperature from multi-source satellite remote sensing observations[D].Chengdu: University of Electronic Science and Technology of China.DOI: 10.27005/d.cnki.gdzku.2020.004684 .

周义, 覃志豪, 包刚, 2013.热红外遥感图像中云覆盖像元地表温度估算初论[J].地理科学33(3): 329-334.DOI: 10.13249/j.cnki.sgs.2013.03.012.Zhou Y

Qin Z H Bao G2013.A preliminary view on the estimation of land surface temperature under cloud cover from thermal remote sensing data[J].Geographical Science33(3): 329-334.DOI: 10.13249/j.cnki.sgs.2013.03.012 .

周义, 覃志豪, 包刚, 2014.热红外遥感图像中云覆盖像元地表温度估算研究进展[J].光谱学与光谱分析34(2): 364-369.DOI: 10.3964/j.issn.1000-0593(2014)02-0364-06.Zhou Y

Qin Z H Bao G2014.Progress in retrieving land surface temperature for the cloud-covered pixels from thermal infrared remote sensing data[J].Spectroscopy and Spectral Analysis34(2): 364-369.DOI: 10.3964/j.issn.1000-0593(2014)02-0364-06 .

周媛媛, 杨晓辉, 肖天贵, 2025.基于宽度学习系统的云南省多源降水数据融合模型研究[J].高原气象44(2): 475-491.DOI: 10.7522/j.issn.1000-0534.2023.00085.Zhou Y Y

Yang X H Xiao T G, et al, 2025.Multi-source rainfall data assimilation based on broad learning system over Yunnan Province[J].Plateau Meteorology44(2): 475-491.DOI: 10.7522/j.issn.1000-0534.2023.00085 .

Outlines

/