Differences between Machine Learning and Traditional Downscaling Method in Processing Summer Meteorological Elements in the Yellow River Basin

Han CHEN; Xiaodan GUAN; Tingting MA

doi:10.7522/j.issn.1000-0534.2024.00118

2025 , Vol. 44 >Issue 4: 987 - 1004

DOI: https://doi.org/10.7522/j.issn.1000-0534.2024.00118

Differences between Machine Learning and Traditional Downscaling Method in Processing Summer Meteorological Elements in the Yellow River Basin

Han CHEN ^,¹ ,
Xiaodan GUAN ^,¹^,² ,
Tingting MA ¹

Expand

^1. Key Laboratory for Semi-Arid ClimateChange of the Ministry of Education，School of AtmosphericSciences，Lanzhou University，Lanzhou，730000，Gansu，China
^2. Collaborative Innovation Center for Western Ecological Safety，Lanzhou University，Lanzhou，730000，Gansu，China

Received date: 2024-08-03

Revised date: 2024-12-25

Online published: 2025-08-04

Copyright

Fold

Abstract

Global Climate Models （GCMs） are the primary tools currently used to predict future climate change； however， their coarse spatial resolution limits their ability to assess localized impacts of climate change.To address this issue， statistical downscaling methods based on linear regression equations have been developed to enhance the spatial resolution of GCMs and have continuous improvement and innovation.Meanwhile， machine learning techniques have demonstrated superior performance in various predictive modeling problems， making them potential new tools for statistical downscaling.Therefore， this study applied machine learning model-Light Gradient Boosting Machine （LightGBM ） to construct statistical downscaling model for each site， combined with information flow method to select forecasting factors， and compared with linear regression method （stepwise multiple linear regression method based on Empirical Orthogonal Function） to explore the application ability of LightGBM in the field of statistical downscaling.The two methods were applied to downscale the meteorological element of the Yellow River basin， an important climate change sensitive area in China， establishing statistical downscaling models for 90 stations within the basin to generate temperature and precipitation data for the summer months （June， July， August） from 1965 to 2014.The performance of both methods is evaluated through an analysis of the correlation coefficients， root mean square errors （RMSE）， and spatial distributions between downscaled values and observed values.The results show that both downscaling methods can correct the temperature error of the reanalysis data （ERA5） in the northern part of the basin.LightGBM shows superior inter-site correlation， but 60， 64， 52 sites show higher RMSE than regression method in June， July， and August， respectively.For precipitation downscaling， neither of the two downscaling datasets nor ERA5 could accurately represent the spatial distribution of observed values， but the downscaling value obtained by LightGBM had a higher inter-site correlation coefficient than the regression method， and only 16， 7， 14 sites showed higher RMSE than the regression method in June， July and August.Considering the potential of machine learning methods for modeling nonlinear problems， it is still necessary to further improve the algorithm and improve the quality of downscaling data sets in the future.The advantages and disadvantages of machine learning in downscaling work provided a technical reference and support for using statistical downscaling methods to generate high-resolution temperature and precipitation data in the future.

Key words： statistical downscaling; machine learning; information flow; temperature; precipitation

Cite this article

Han CHEN , Xiaodan GUAN , Tingting MA . Differences between Machine Learning and Traditional Downscaling Method in Processing Summer Meteorological Elements in the Yellow River Basin[J]. Plateau Meteorology, 2025 , 44(4) : 987 -1004 . DOI: 10.7522/j.issn.1000-0534.2024.00118

1 引言

黄河流域地处30°N -45°N， 95°E -120°E，地理跨度大，覆盖中国九个省区，大部分属于干旱，半干旱地区，是中国主要的气候变化敏感区，气候变化对流域生态、经济等方面影响巨大（潘攀等， 2014；黄建平等， 2020）。由于气温和降水是反映气候变化的主要指标，因此，分析流域内气温和降水的变化有助于探究黄河流域气候变化的特点（杨特群等， 2009）。有研究表明，自1980年以来，黄河流域气温多呈上升趋势，尤其1990年后，升温明显加快；而降水的季节性差异显著，其中夏季降水减少最为明显（徐宗学等， 2005；黄建平等， 2020）；且受城镇化的影响，流域内局地水循环受到改变（管晓丹等， 2023）。受以上影响，黄河径流量呈显著的减少趋势（蓝永超等， 2006；张建云等， 2009），这将加剧黄河流域水资源的缺乏程度。因此，为了在气候变化背景下保障黄河流域的生态安全、维持流域内水资源稳定，预估流域内温度和降水的时空变化是十分必要的。

当前，全球气候模式（GCMs）是预估未来气候变化的重要工具（Sun et al， 2019； Eden and Widmann， 2014；张粟瑜等， 2024）。然而， GCMs模拟的气候情景空间分辨率较粗，无法满足区域和局地气候变化影响评估的需要，在这种情况下，降尺度方法成为连接两种尺度的有力工具。降尺度法可以分为动力降尺度与统计降尺度（Kannan et al， 2013）。动力降尺度是利用与GCMs耦合的区域气候模式（RCM）来预估区域未来气候变化情景，它的优点是物理意义明确，能应用于任何区域而不受观测资料影响，缺点是计算量大，费机时，且受GCMs提供的边界条件影响（Ogega et al， 2020）；相比之下，统计降尺度通过建立局地尺度气象序列与大尺度大气变量之间的统计关系，可以将GCMs的输出转换为局地尺度而不受边界条件的影响（Maraun and Widmann， 2018； Zhang et al， 2019；朱姜韬等， 2023）。常用的统计降尺度法包括：回归法；天气分型技术；天气发生器（Wilby and Dawson， 2013）。其中，基于线性回归的方法因对机时要求小，且容易实现而在上述方法中广受欢迎： Ruping 和 David引入了主成分分析并结合多元线性回归成功预估了东亚的季节性温度（Mo and Straus， 2002）。且已有学者使用“Delta 统计降尺度方法”探究了黄河流域降水与温度的年际变化，发现2023 - 2100年间，流域内降水与温度均呈上升趋势（Li et al， 2024）。

与此同时，近年来机器学习在预测建模问题方面的高性能而备受关注，且由于具有优异的泛化性能已被证明是解决非线性问题的有效模型（Zhao and Magoulès， 2012）。因此，机器学习被视为是传统降尺度方法的一个有希望的代替方法。已有学者将人工神经网络（ANN），支持向量机（SVM）应用于统计降尺度，并成功降尺度维多利亚和安大略省的降水与温度（Li et al， 2020； Sachindra et al， 2018）。LightGBM（Light Gradient Boosting Machine）是在2017年发布的基于决策树算法的梯度提升框架，相较于ANN与SVM，它适用于大规模数据集，拥有训练速度快，处理缺失数据和特征选择能力强等特点，同时拥有更高的可解释性，已被证明可以预报区域日气温变化（罗威等， 2022），但在统计降尺度领域还缺少应用实例。

因此，本研究的目的是使用LightGBM和传统降尺度法-基于经验正交分解（EOF）的逐步多元线性回归法（范丽军， 2006），对黄河流域90个站点进行案例研究，比较它们在1965 -2014年夏季温度与降水方面的降尺度表现，以评估机器学习和传统方法在降尺度方面的性能。本研究为利用回归法和机器学习方法生成站点尺度的温度与降水预测提供了技术基础。

2 研究区域、数据来源与方法介绍

2.1　研究区域

黄河水利委员会将黄河流域的上中下游做了精细划分：将河口以上河段作为上游，将河口至桃花峪一段作为中游，将桃花峪至渤海湾一段作为下游。由于上游西部位于青藏高原，平均海拔在4000 m以上，常年被冰雪覆盖，生态环境独特，故本研究将黄河流域与青藏高原重合的区域作为源区（Huang et al， 2022）。流域内夏季降水主要受到副热带西风急流的调控，当夏季东亚副热带西风急流中心异常偏北（南）时，同期黄河流域中上游地区降水偏多（少），下游降水偏少（多）；东亚副热带西风急流中心异常偏东（西）时，黄河流域上游降水偏多（少），中下游地区降水偏少（多）（邵鹏程等， 2015）。近几十年流域内气候变化的时空特征表明： 1979 -2019年间，黄河流域源区，上游和中游的年降水变化趋势与温度显著不同（黄建平等， 2020）；各流域内典型站点的年降水量显著不同（张小兵和柳礼春， 2020）。基于以上结论，在本研究中，针对源区，上游和中游分别选取大尺度预报因子，进行降尺度处理。文中涉及的地图是基于中华人民共和国自然资源部地图技术审查中心标准地图服务系统下载的审图号为GS（2016）1584的中国地图制作，底图无修改。

2.2　数据介绍

2.2.1　观测数据

本研究所使用的每日降水与温度由中国气象局提供（http： //data.cma.cn/），覆盖黄河流域源区，上游，中游共计90个站点（图1），时间跨度为1965 -2014年。

显示原图|下载原图ZIP|生成PPT

图1 黄河流域海拔（单位： m）及其站点分布

（Ⅰ）源区，（Ⅱ）上游，（Ⅲ）中游，（Ⅳ）下游

Fig.1 Elevation （unit： m） and distribution of stations in the Yellow River Basin.（Ⅰ） source area，（Ⅱ） upper reaches，（Ⅲ） middle reaches，（Ⅳ） lower reaches

2.2.2　再分析资料

来自欧洲中期天气预报中心（European Center for Medium-Range Weather Forecasts， ECMWF）的第五代全球大气再分析数据集（ERA5）为本研究提供潜在的大尺度预报因子，数据集中包含300 hPa， 400 hPa， 500 hPa， 600 hPa， 700 hPa， 850 hPa， 925 hPa， 1000 hPa下的位势高度（z），温度（t），纬向风（u），经向风（v），相对湿度（r），比湿（q）以及海平面气压（slp）； ERA5提供的2 m气温（t2m）和累计降水量（tp）被用于分析黄河流域夏季温度和降水的时空特征。以上数据集时间跨度均为1965 -2014年，时间分辨率为月。

2.2.3　第六次国际耦合模式比较计划（CMIP6）数据

本研究使用了10个CMIP6模式，详细信息见表1，每个模式均使用historical 情景，包含与ERA5相同的变量，且时间分辨率都为月。由于CMIP6模式具有误差（Sun et al， 2022），在应用模式数据之前，应该对模式进行筛选，因此研究使用了空间相关系数（PCC），区域时间相关系数（TCC），均方根误差（RMSE）和线性趋势（Trend）这四个指标对10个CMIP6数据进行筛选，测试模式重现历史时期黄河流域夏季温度与降水的能力。根据测试结果，选取了CMIP6中模拟黄河流域夏季降水与气温最佳的模式： ACCESS-CM2与CESM2，用以提供潜在的预报因子。值得注意的是，为统一CMIP6数据与ERA5再分析资料的空间分辨率，使用气象数据处理软件（CDO）中的remapbil函数将CMIP6数据插值到0.25°×0.25°的网格。

表1 本研究所使用的CMIP6模式

Table 1 The CMIP6 modes used in this study

序号	模式名称	研究机构	空间分辨率
1	ACCESS-CM2	澳大利亚气候与环境研究中心	144×192
2	CanESM5	加拿大气候模拟和分析中心	64×128
3	CESM2	美国国家大气研究中心	192×288
4	GFDL-ESM4	美国国家海洋和大气管理局	180×288
5	KACE-1-0-G	韩国海洋科学技术研究所	144×192
6	MCM-UA-1-0	美国亚利桑那大学	80×96
7	MRI-ESM2-0	马克斯·普朗克气象研究所	160×320
8	MIROC6	日本推进气候模式综合研究计划	128×256
9	NASA-GISS	美国国家航空航天局	90×144
10	NUIST-NESM3	南京信息工程大学	96×192

2.3　统计降尺度方法介绍

2.3.1　大尺度预报因子区域的选择

在任何统计降尺度研究中，大尺度预报因子区域（获得大尺度大气信息作为降尺度模式输入的区域）的选择对统计降尺度模型的构建至关重要（Sachindra et al， 2018）。在本研究中，针对源区、上游和中游分别选择一个大尺度预报因子区域，该区域覆盖了源区、上游和中游的所有站点。大尺度预报因子区域的具体范围是：源区（32°N -38°N， 95°E - 105°E）；上游（36°N -42°N， 105°E -110°E）；中游（34°N -40°N， 105°E -115°E）。

2.3.2　大尺度预报因子的选择

A．相关分析选择预报因子

预报因子的选择对统计降尺度模型的输出有重要的影响。基于EOF分析的逐步多元线性回归法其原理是在历史时期构建网格尺度的多个大尺度气候变量（大尺度预报因子）和站点气象要素（预报变量，例如温度和降水）之间的线性关系，然后将这种统计关系应用于GCMs的未来输出，从而获得站点尺度的未来气候变化情景（Chen et al， 2016）。该方法要求大尺度气候变量与站点气象要素之间要有显著的统计关系（Wilby et al， 1997）。在本研究中，当使用基于EOF分析的逐步多元线性回归法进行降尺度时，使用2.3.3节中的方法分别对源区，上游和中游建立统计降尺度模型，并通过交叉验证来选择各个区域各个月份最佳预报因子组，具体做法是：首先任意组合两个预报因子作为预报因子组，然后选择一个观测样本，用该预报因子组和其余N-1 个样本建立统计降尺度模型后，对被选择的观测样本进行估计，这个过程重复N次，直到N个样本都被选择，最终得到N个估计值，然后N个观测值与N个估计值进行相关分析。最后，选择相关系数最高的预报因子组作为某月某流域的最佳预报因子组（范丽军， 2006）。值得注意的是，添加一个湿度因子会使降水降尺度模型的性能有较大提升（Wilby et al， 2000）。因此，本方法在为降水构建统计降尺度模型时，采用“比湿（q）+其他大尺度气候变量”作为预报因子组。

B．信息流方法选择预报因子

在机器学习方法中，输入多个自变量是非常常见且必要的，因为多个自变量相较于单一变量可以提供更多的信息，帮助模型更准确地预测目标变量，但过多的输入会给模型带来冗余信息。在之前使用机器学习进行统计降尺度的研究中发现，每个月份有3~12个预报因子就足够建立统计降尺度模型（Sachindra et al， 2013），因此，本研究为每个站点在每个月份选择7个预报因子作为LightGBM模型的输入，其中预报因子的区域平均序列作为自变量，各个站点每月的气象要素序列作为因变量。在过往使用机器学习进行统计降尺度时，常通过大尺度气候变量和站点气象要素之间的相关性分析来为每个站点选择预报因子（Sachindra et al， 2018），但是相关分析仅可以说明两个或多个变量在某种程度上可以一起变化，它们之间具有一定的关联性，无法说明预报因子与被预测量之间的因果关系。同时考虑到机器学习模型可解释性较差，在使用机器学习进行降尺度工作时，难以说明预报因子与被预测量之间的联系。因此本研究引入了信息流方法，计算了大尺度气候变量与站点气象要素之间的因果关系，具体方法如下：

T 2 → 1 = C 11 C 12 C 2, d 1 - C 122 C 1, d 1 C 112 C 22 - C 11 C 122

（1）

式中：

T 2 → 1

是指两个时间序列x ₂到x ₁的信息流传递；

C i j

为样本协方差；

C i, d j

是x_i 和由x_j 导出的级数之间的样本协方差。该公式已被证明在高度混沌预期系统问题中是非常成功的（Liang， 2016）。

在本研究中， x ₂是大尺度气候变量的区域平均序列， x ₁是站点气象要素的时间序列。在不同的大尺度预报因子区域内，计算了不同气候变量到站点气象要素的信息流传递。考虑到当

T 2 → 1 > 0

时， x ₂将促使x ₁的发生（Stips et al， 2016），因此本研究筛选出对站点气象要素信息流传递大于0的前7个大尺度气候变量（显著性水平在90%以上），作为该站点的预报因子组。信息流方法挑选预报因子的优势在于，可以确定哪些预报因子与被预测量之间存在因果关系，并可以量化因果关系的强弱，帮助理解哪些预报因子对被预测量影响更大，提高了机器学习模型的可解释性。并且相比线性相关分析，信息流方法可以揭示变量之间的非线性关系。

2.3.3　基于EOF分析的逐步多元线性回归法

该方法首先采用EOF分解对大尺度预报因子区域的大尺度气候变量进行降维和滤波处理，目的是得到主要数据特征量（陈子凡等， 2022）；紧接着使用逐步回归法挑选对源区，上游和中游的平均降水序列有显著贡献的模态（PCs）；最后使用每个站点的月温度/降水序列与挑选出的PCs构建多元线性回归方程，最终得到了各站点夏季各日历月的统计降尺度模型（范丽军， 2006）。此外，有研究表明，使用回归法进行统计降尺度研究时，会出现降尺度值的方差小于观测值的方差的问题（Storch and Zwiers， 1999）。为了解决这个问题，本研究将各站点的降尺度值与1965 -2014年期间观测值标准差的倒数相乘从而放大降尺度值的方差，此方法已被成功地应用在统计降尺度的研究中（Huth， 2002）。

2.3.4　基于LightGBM的统计降尺度方法

LightGBM是一款基于决策树算法的分布式梯度提升框架，其基本思想是通过一系列规则对数据进行分类，算法原理参照https： //lightgbm.readthedocs.io/en/latest/index.html。在本研究中， LightGBM参数的意义及设定为： “最大树深度”：是指决策树的最长路径上从跟节点到叶节点的节点数量，它限制了树的深度，以防止模型过拟合，在本研究中，该参数被设定为3； “默认学习率”：是指在训练机器学习模型时，优化算法用于更新模型参数的步长大小，在LightGBM中，默认学习率决定了每棵树对最终模型的贡献程度，在本研究中，该参数被设定为0.1； “叶子个数”：指的是决策树中叶子节点的数量，在LightGBM中，叶子个数直接影响模型的复杂性和表达能力，每个叶子节点代表了一个类别或输出值，增加叶子个数可以提高模型的拟合能力，但过多的叶子节点可能导致过拟合，在本研究中，该参数被设定为10； “叶节点样本的最少数量”：是指在构建决策树时，每个叶子节点所需包含的最小样本数，这一参数的主要目的是控制模型的复杂性，防止过拟合，在本研究中该参数被设定为20； “Subsample”：是指在训练模型时，从训练数据中随机选择一个子集进行学习的过程，在本研究中该参数设为0.7。

2.3.5　数据标准化及训练集与测试集的划分

本研究中所用的预报因子与站点气象要素均进行标准化处理。对于站点数据，处理程序为：

A i, n o r = A i, r a w - A ¯ i, r a w σ A i, r a w

（2）

式中：

A i, n o r

代表某站点标准化后的变量序列；

A i, r a w

代表某站点原始的变量序列；

A ¯ i, r a w

与

σ A i, r a w

代表对原始序列求平均值和标准差。对于格点数据，处理程序为：

B i j, n o r = B i j, r a w - B ¯ i j, r a w σ B i j, r a w

（3）

式中：

B i j, n o r

代表某格点标准化后的变量序列；

B i j, r a w

代表某格点原始的变量序列；

B ¯ i j, r a w

与

σ B i j, r a w

代表对原始序列求平均值和标准差。

两种统计降尺度方法在1965 -2014年共计50年中随机选择40年的数据用于训练，将其余10年（1972年， 1979年， 1982年， 1998年， 1999年， 2001年， 2004年， 2006年， 2010年， 2011年）的数据用作验证。

3 结果分析

3.1　黄河流域温度与降水的EOF分析

黄河流域横跨中国三大地势台阶，受地形与局地天气系统的影响，不同区域的温度和降水量差异显著，因此，在使用统计降尺度方法重现历史时期的温度与降水前，对黄河流域温度和降水的进行特征分析是必要的。本研究使用EOF分解，分析了黄河流域1965 -2014年夏季温度和降水的前三个模态的空间分布与时间系数（李永生等， 2017）。结果发现，温度的第1、第2和第3特征向量的方差贡献分别为62.33%， 13.36%， 7.2%累计方差贡献率为82.89%（已通过North检验），温度的第一模态表现为区域一致的整体分布［图2（a）］，结合时间序列的变化可知，黄河流域温度的年际变化明显，自1995年以来，流域增温显著［图2（d）］；第二模态呈南北反向的经向型分布［图2（b）］，其时间相关系数在1980年前以负值为主， 1980 -2014年以正值为主；第三特征向量表现出东部与西部地区相反的分布特征，其时间序列在1995年后有显著的上升趋势。降水的第1、第2和第3特征向量的方差贡献分别为23.78%， 14.49%， 9.6%累计方差贡献率为47.87% （已通过North检验），其第一模态为区域一致的空间分布［图3（a）］，第二模态与第三模态分别呈南北和东西反向的分布特征［图3（b），（c）］，三个模态的时间系数年际变率较大，振幅也较大，无显著线性趋势［图3（d）］，这说明流域夏季降水基本稳定。

显示原图|下载原图ZIP|生成PPT

图2 1965-2014年黄河流域（源区、上游、中游）夏季温度场EOF分解的前三个特征向量空间分布（a， b， c）与时间系数（d）

（a）第一模态，（b）第二模态，（c）第三模态，（d）时间系数

Fig.2 The spatial distribution of the first three EOF eigenvectors （a， b， c） of summer temperature in the YRB （the source region， the upper reaches and the middle reaches） and time coefficients （d） from 1965 to 2014.（a） the first eigenvector，（b） the second eigenvector，（c） the third eigenvector and （d） the corresponding standardized time series

显示原图|下载原图ZIP|生成PPT

图3 1965-2014年黄河流域（源区、上游、中游）夏季降水场EOF分解的前三个特征向量空间分布（a， b， c）与时间系数（d）

（a）第一模态，（b）第二模态，（c）第三模态，（d）时间系数

Fig.3 The spatial distribution of the first three EOF eigenvectors （a， b， c） of summer precipitation in the YRB （the source region， the upper reaches and the middle reaches） and time coefficients （d） from 1965 to 2014.（a） the first eigenvector，（b） the second eigenvector，（c） the third eigenvector and （d） the corresponding standardized time series

3.2　潜在预报因子的选取

预报因子的选择对于统计降尺度的效果起重要的作用。由线性回归方法构造的统计降尺度模型需要大尺度气候变量（即预报因子）与站点气象要素（被预测量）之间有显著的线性相关（Wilby et al， 1997）。由于GCMs输出的历史时期的气候变量具有明显的偏差，不能满足基于线性回归方法构造的统计降尺度模型对于预报因子的要求（Chen et al， 2016），故本研究在使用基于EOF分析的逐步多元线性回归法构造统计降尺度模型时，使用了由ERA5再分析资料提供的预报因子驱动模型。但是， GCMs输出的数据中仍然包含许多有价值的信息，可以直接应用在其他统计降尺度方法中（Wood et al， 2004）。考虑到LightGBM是基于决策树算法的梯度提升框架，可以较好地模拟变量之间的非线性关系。因此，在使用LightGBM进行降尺度时，比较了使用ERA5再分析资料和GCMs模拟的历史数据作为降尺度模型输入的不同结果。

在这一部分中，使用了信息流方法，分别从ERA5和CMIP6两种数据库中为黄河流域90个站点挑选预报因子，驱动LightGBM降尺度模型，并通过相关系数比较两种降尺度数据与观测值是否具有一致的变化，从而确定哪一种数据更加适合作为LightGBM的输入量。结果表明，在对温度进行降尺度时，使用ERA5提供的预报因子驱动统计降尺度模型可以更准确地重现历史时期的变化，在整个夏季，使用ERA5提供的预报因子作为模型的输入会比CMIP6表现出更高的最小相关系数和平均相关系数，特别是在源区和上游，由ERA5得到的降尺度值与观测值的平均相关系数稳定在0.8，而由CMIP6得到的降尺度值与观测值的平均相关系数最高仅有0.57（图4）。在对降水进行降尺度时，两种数据驱动的统计降尺度模型更难捕捉降水的变化，二者的相关系数均有所下降，但由ERA5驱动的模型较CMIP6表现出更优越的性能，特别是在源区，由ERA5得到的夏季三个月份的降尺度值与观测值的平均相关系数分别为0.57， 0.50， 0.53，而由CMIP6得到的降尺度值与观测值的相关系数均小于0.25。综上所述，可以认为在使用LightGBM进行统计降尺度研究时， ERA5数据能为降尺度模型提供更加可靠的预报因子。

显示原图|下载原图ZIP|生成PPT

图4 温度降尺度值与观测值站点间相关系数的最小值，平均值和最大值

（a~c）使用了ERA5提供的预报因子，（d~f）使用了CMIP6提供的预报因子，降尺度模型为LightGBM

Fig.4 Minimum， average and maximum correlation coefficients between temperature downscaling values and observed values at each station.（a~c） used the predictors provided by ERA5，（d~f） used the predictors provided by CMIP6， and the downscaling model was LightGBM

显示原图|下载原图ZIP|生成PPT

图5 降水降尺度值与观测值站点间相关系数的最小值，平均值和最大值

（a~c）使用了ERA5提供的预报因子，（d~f）使用了CMIP6提供的预报因子，降尺度模型为LightGBM

Fig.5 Minimum， average and maximum correlation coefficients between precipitation downscaling values and observed values at each station.（a~c） used the predictors provided by ERA5，（d~f） used the predictors provided by CMIP6， and the downscaling model was LightGBM

3.3　 LightGBM与传统方法对气温降尺度性能的比较

在选取预报因子之后，开展了LightGBM与传统方法对温度降尺度结果差异性的评估。考虑到相关系数可以帮助研究者了解模型在捕捉趋势方面的表现，而均方根误差（RMSE）则衡量了降尺度值与观测值之间的偏差，反映了降尺度值在数值上的准确性和精度。因此，本研究结合使用相关系数和均方根误差，评估降尺度结果的可靠性和精度。结果表明在6月， LightGBM相较于回归法，在黄河流域源区与上游展现了良好的模拟结果，相关系数最高可达0.98，最低为0.65；但在中游部分站点中， LightGBM表现不佳［图6（a）］。在7月与8月， LightGBM和回归法在源区和上游表现优异，相关系数统一在0.8以上，最高可达0.99，但在中游二者性能有所下降，均出现站点间相关系数差异变大等问题［图6（b），（c）］。整体来看，由回归法得到的降尺度结果波动较大，尤其是在8月，有3个站点相关系数不足0.2。基于以上结论可以发现，在使用LightGBM对温度进行降尺度处理时，模型可以更准确地重现历史时期温度的变化。

显示原图|下载原图ZIP|生成PPT

图6 黄河流域内90个站点温度降尺度值与观测值的相关系数

（a）6月，（b）7月，（c）8月；图中蓝色区域内涵盖了源区16个站点，绿色区域涵盖了上游26个站点，红色区域涵盖了中游48个站点

Fig.6 The correlation coefficient between temperature downscaling values and observed values at 90 stations in the Yellow River Basin.（a） June，（b） July，（c） August.The blue area covers 15 stations in the source area， the green area covers 26 stations in the upper reaches， and the red area covers 49 stations in the middle reaches

各站点降尺度值与观测值的RMSE表明： 6月， LightGBM模拟的站点温度中有60个站点表现出比回归法更高的RMSE，这些站点主要分布在上游与中游［图7（a）］。在7月，有64个站点表明LighGBM模拟温度的准确性不如回归法，尤其在源区和上游。8月份，尽管仍有超过一半的站点（54个）表明了由回归法得到的降尺度结果较LighGBM更加准确，但两种方法在 90个站点的平均RMSE为0.629 （LightGBM）和0.622 （回归法），说明在8月， LightGBM降尺度的准确性与回归法相近。结合相关性分析，可以得出结论： LightGBM在模拟温度变化趋势方面优于回归方法，然而在数值模拟的准确性方面，则不及回归法。

显示原图|下载原图ZIP|生成PPT

图7 标准化后的黄河流域内90个站点温度降尺度值与观测值之间的均方根误差

（a）6月，（b）7月，（c）8月

Fig.7 The root means square error （RMSE） between the temperature downscaling values and the observed values after standardization at 90 stations in the Yellow River Basin.（a） June，（b） July，（c） August

在对单个站点的降尺度值与观测值之间的相关系数和均方根误差进行分析之后，得到了降尺度模型在站点尺度的表现情况。然而，了解降尺度值在区域内的分布十分关键，这对于评估统计降尺度模型的区域适用性是重要的。因此，将探究站点降尺度值的空间分布特征（图8），比较它与观测值的差异，进一步验证模型的可靠性，并且将ERA5提供的温度（降水）插值在站点上，分析降尺度数据是否可以校正再分析资料的误差。为了使不同数据集之间具有可比性，突出相对变化，便于观察空间分布中的异常，将数据进行了标准化处理，标准化程序根据第2.3.5节所给公式执行。结果表明，在1972年的6月与7月， ERA5数据明显低估了上游以及源区北部的温度，而使用两种降尺度方法得到的数据更正了ERA5的误差，温度的空间分布与观测值十分相似；在8月，四种数据集在空间分布上一致性较好。然而， LightGBM虽然可以模拟出与观测温度相似的高值与低值中心，但在7月的上游与8月中游的部分站点中，模拟值的强度低于观测值；由回归法得到的温度在数据强度上较LightGBM更加准确，但在个别站点的模拟中会出现较大偏差，例如在8月份，中游南部个别站点，降尺度值明显低估了观测值。通过分析其他年份不同数据集的分布特征，可以发现ERA5数据表现多年份在流域北部低估观测值（1979， 1982， 1998， 1999， 2001， 2010年）；由LightGBM构建的降尺度模型则在一些高值的模拟中存在偏差，例如在1998年7月与1999年6月，在上游和中游的南部， LighGBM模拟的温度强度较观测值偏低，但流域整体温度的空间分布和观测值相似，而回归法在模拟高值时更加准确。仍然存在个别的情况，两种降尺度数据与观测值差异较大： LightGBM在2011年6月与7月，没有模拟出中游站点的温度分布；回归法在1982年7月的模拟中，中游南部的降尺度值明显高估了观测值。综上所述，在对温度进行降尺度处理时，降尺度数据修正了ERA5的误差，温度的空间分布与观测值十分接近。尽管仍然存在个别站点降尺度值偏离观测值较大的问题，但仍然认为对于温度，统计降尺度法是提高数据精度的有效方法。

显示原图|下载原图ZIP|生成PPT

图8 1972年6月（左）、7月（中）、8月（右）各站点温度标准化后的空间分布

（a~c）是站点数据，（d~f）是ERA5再分析资料，（g~i）是由LightGBM得到的统计降尺度数据，（j~l）是由回归法得到的统计降尺度数据

Fig.8 The spatial distribution of temperature at each site after standardization in June （left）， July （medium）， and August （right） 1972.（a~c） are station data，（d~f） are ERA5 reanalysis data，（g~i） are statistical downscaling data obtained by LightGBM， and （j~l） are statistical downscaling data obtained by regression method

3.4　 LightGBM与传统方法对降水降尺度性能的比较

与温度相比， LightGBM与回归法在对降水进行降尺度处理时性能均有所下降，站点间相关系数波动变大，在整个夏季，相关系数最高仅为0.84，而且在个别站点，降尺度值与观测值的相关性较小甚至负相关（图9）。具体表现为6月， LightGBM相比回归法站点间相关系数波动较小，且在中游的大多数站点中相关系数优于回归法［图9（a）］； 7月相比6月，尽管回归法模拟的降水在源区和上游有良好的相关系数，但在整个流域大多数站点中的表现仍不及LightGBM［图9（b）］； 8月，在总计90个站点中， LightGBM模拟的降水在56个站点中表现出比回归法更高的相关性［图9（c）］。整体分析可知，使用回归法得到的夏季90个站点降尺度值与观测值的平均相关系数分别为0.2， 0.231， 0.286；而使用LightGBM进行降尺度时， 90个站点的平均相关系数为0.367， 0.432， 0.44，这说明LighGBM在降水变化趋势的模拟上优于回归法。在数值模拟的准确性上， LightGBM也表现出优异的性能（图10），在6， 7， 8月仅有16， 7和14个站点表现出比回归法更高的RMSE， 90个站点在三个月份的平均RMSE为： LightGBM“0.75， 0.93， 0.86”，回归法“1.11， 1.47， 1.12”。

显示原图|下载原图ZIP|生成PPT

图9 黄河流域90个站点降水降尺度值与观测值的相关系数

（a）6月，（b）7月，（c）8月；图中蓝色区域内涵盖了源区16个站点，绿色区域涵盖了上游26个站点，红色区域涵盖了中游48个站点

Fig.9 The correlation coefficient between precipitation downscaling values and observed values at 90 stations in the Yellow River Basin.（a） June，（b） July，（c） August.The blue area covers 15 stations in the source area， the green area covers 26 stations in the upper reaches， and the red area covers 49 stations in the middle reaches

显示原图|下载原图ZIP|生成PPT

图10 标准化后的黄河流域90个站点降水降尺度值与观测值之间的均方根误差

（a）6月，（b）7月，（c）8月

Fig.10 The root mean square error （RMSE） between the precipitation downscaling values and the observed values after standardization at 90 stations in the Yellow River Basin.（a） June，（b） July，（c） August

通过研究降水的空间分布，发现ERA5、降尺度数据和观测降水之间存在较大差异（图11）。观测数据表明在1972年6月，降水主要集中在源区，上游和中游交汇之处， ERA5与LightGBM虽然具有类似的分布特征，但ERA5的降水范围较大， LightGBM模拟的降水强度小于观测值，而由回归法得到的降水中心则与观测值存在较大的偏差（图11）； 7月与8月的降尺度数据与ERA5对比观测值仍有较大误差，二者对于降水中心的范围模拟得不准确。在其他的年份中， ERA5与两种降尺度数据仅在少数时间段与观测值一致性较好（1979年7月， 1982年7， 8月， 1998年8月， 1999年8月， 2001年6月， 2010年6， 8月）。值得注意的是，在使用LightGBM对降水进行降尺度时，发现模型在某些时间段中未能模拟出降水应有的强度，降水量偏低（1979年6月， 2001年7月， 8月， 2004年7月， 2006年6月， 2011年7月， 8月）。这些结果表明，当前使用的两种统计降尺度方法仅在部分时段可以重现真实的降水，二者对于降水的降尺度能力仍待提升。

显示原图|下载原图ZIP|生成PPT

图11 1972年6月（左）、7月（中）、8月（右）各站点降水标准化后的空间分布

（a~c）是站点数据，（d~f）是ERA5再分析资料，（g~i）是由LightGBM得到的统计降尺度数据，（j~l）是由回归法得到的统计降尺度数据

Fig.11 The spatial distribution of preicipitation at each site after standardization in June （left）， July （medium）， and August （right） 1972.（a~c） are station data，（d~f） are ERA5 reanalysis data，（g~i） are statistical downscaling data obtained by LightGBM， and （j~l） are statistical downscaling data obtained by regression method

3.5　降尺度数据集的分布特征及其变异性

在之前的研究中发现，使用LightGBM对温度和降水进行降尺度时，会出现降尺度值的强度较观测值偏小的问题。为了深入分析降尺度数据的分布特征，对比了观测数据、再分析资料、降尺度数据的分布特征。在源区、上游、中游地区分别选择了LightGBM与回归法降尺度效果最优的站点，对应的再分析资料选择了与此站点相邻的四个格点数据的平均值。结果表明，使用LightGBM作为降尺度模型模拟温度时，降尺度值的中位数时相较于ERA5与观测值更加接近，但数据分布较观测值更加集中，数据方差较小，不能模拟出真实温度的分布特征［图12（a）~（c）］；在使用回归法进行降尺度时，中位数的模拟不如LightGBM准确，但降尺度值的整体分布接近观测值［图12（d）~（f）］； ERA5数据分布较广，数据整体偏离观测值较多，中位数也与观测值存在误差（图12）。在对降水进行降尺度时，两种降尺度数据集与ERA5都无法再现观测值的分布情况，均存在数据偏离，中位数有偏差等问题（图13），其中由LightGBM得到的降尺度值的方差明显小于观测值。这些结果说明LightGBM不能准确模拟出真实值的变异性，降尺度值的方差小于观测值，这使得该模型在模拟极值时能力有限。

显示原图|下载原图ZIP|生成PPT

图12 温度的降尺度值、再分析资料和观测值的分布

以上数据均被标准化，其中（a~c）为LightGBM降尺度效果最佳的站点的降尺度值与对应的再分析资料和观测值的比较，（d~f）则为回归法降尺度效果最佳的站点与对应的再分析资料和观测值的比较，蓝色箱体，绿色箱体和红色箱体分别代表降尺度值，再分析资料和观测值

Fig.12 The distribution characteristics of downscaling values， ERA5 and observed values of temperature.（a~c） are the comparisons between the downscaling value of the site with the best predictive effect of LightGBM with ERA5 and observations；（d~f） are the comparisons between the site with the best predictive effect of regression method and the corresponding reanalysis data and observations； the blue box， the green box， and the red box represent the downscaling value， ERA5 and the observation value respectively

显示原图|下载原图ZIP|生成PPT

图13 降水的降尺度值、再分析资料和观测值的分布

Fig.13 The distribution characteristics of downscaling values， ERA5 and observed values of precipitation.（a~c） are the comparisons between the downscaling value of the site with the best predictive effect of LightGBM with ERA5 and observations；（d~f） are the comparisons between the site with the best predictive effect of regression method and the corresponding reanalysis data and observations； the blue box， the green box， and the red box represent the downscaling value， ERA5 and the observation value respectively

4 结论

本研究探讨了机器学习方法LightGBM对典型半干旱区气象要素降尺度的适用性，通过对比传统的逐步多元回归法为基础的统计降尺度结果，评估了LightGBM对黄河流域夏季温度和降水降尺度的空间和时间适用性差异。文章选择了黄河流域的90个气象站作为案例研究，分别使用两种方法为每个站点构建统计降尺度模型。并且，为了提高LightGBM的可解释性，使用了信息流方法为模型挑选预报因子。两种方法均在1965 -2014年共计50年中任意选择40年的数据用于训练，将其余10年（1972年， 1979年， 1982年， 1998年， 1999年， 2001年， 2004年， 2006年， 2010年和2011年）的数据用作验证。将各站点降尺度值与观测数据进行比较，使用RMSE、相关系数和空间分布作为评估标准，得到以下主要结论：

（1） LightGBM和回归法在对温度降尺度时表现良好，两种模型都可以校正再分析资料在流域北部温度的误差。LightGBM和回归法具有类似的降尺度性能，站点间相关系数稳定在0.75以上并且精度相对较高： LightGBM在90个站点模拟的夏季温度平均RMSE为0.68， 0.77， 0.629；回归法则为0.567， 0.622， 0.622。90个站点的高相关系数和低RMSE表明机器学习和回归法都可以产生稳定可靠的降尺度温度。

（2）在对夏季降水进行降尺度时， LightGBM和回归法的性能均有所下降， LightGBM模拟的降尺度值与观测值的站点间相关系数为0.367， 0.432， 0.44；而回归法仅有0.2， 0.231， 0.286。尽管LightGBM表现出比回归法更好的站点间相关系数与RMSE，但两种方法模拟降水的空间分布与观测值仍有较大差异。

（3）在对温度和降水进行降尺度处理时，由LightGBM得到的降尺度值的标准差均小于观测值，降尺度值不具备观测值的分布特征，使模型模拟极值的准确性较低，在其他使用SVM， ANN等机器学习模型进行统计降尺度的研究中，也出现相似的问题。因此，进一步的研究可以集中在解决模拟极值的困难。例如，方差放大方法和偏差校正方法可用于进一步处理降尺度值，以提高极值的模拟能力。

尽管当前结合机器学习的统计降尺度方法频出，但传统的基于线性回归的方法仍然在温度降尺度方面具有优异性能，考虑到机时要求，回归法仍可作为主流的降尺度工具。在降水方面，虽然LightGBM模拟的降水空间分布和观测值有较大差异，但相比回归法， LightGBM在捕捉降水变化趋势与提高降尺度值精度方面仍有较大进步，未来应着重开发机器学习模型来处理降水相关的各种问题。

感谢国家重大科技基础设施项目“地球系统数值模拟装置”提供支持。

References

Publishing order | Descend order by publishing year | Descend order by cited within

Chen

， Xu

C Y

， Guo

S L

， et al， 2016.Progress and challenge in Statistically Downscaling Climate Model outputs［J］.Journal of Water Resources Research， 5： 299-313.DOI： 10.12677/jwrr. 2016.54037 .

Eden

J M

， Widmann

， 2014.Downscaling of GCM-simulated precipitation using model output statistics［J］.Journal of Climate， 27（1）： 312-324.DOI： 10.1175/JCLI-D-13-00063.1 .

Huang

X Q

， Guan

X D

， Zhu

K W

， et al， 2022.Influence of water vapor influx on interdecadal change in summer precipitation over the source area of the Yellow River Basin［J］.Atmospheric Research， 276： 106270.DOI： 10.1016/j.atmosres.2022.106270 .

Huth

， 2002.Statistical downscaling of daily temperature in Central Europe［J］.Journal of Climate， 15（13）： 1731-1742.DOI： 10.1175/1520-0442（2002）015<1731： SDODTI>2.0.CO； 2 .

Kannan

， Ghosh

， 2013.A nonparametric kernel regression model for downscaling multisite daily precipitation in the Mahanadi basin［J］.Water Resources Research， 49（3）： 1360-1385.DOI： 10.1002/wrcr.20118 .

， Mu

H X

， Jian

S Q

， et al， 2024.Assessment of rainfall and temperature trends in the Yellow River Basin， China from 2023 to 2100［J］.Water， 16（10）： 1441.DOI： 10.3390/w16101441 .

X Y

， Li

， Huang

， et al， 2020.Performance of statistical and machine learning ensembles for daily temperature downscaling［J］.Theoretical and Applied Climatology， 140（1）： 571-588.DOI： 10.1007/s00704-020-03098-3 .

Liang

X S

， 2016.Information flow and causality as rigorous notions ab initio［J］.Physical Review E， 94（5）： 052201.DOI： 10.1103/PhysRevE.94.052201 .

Maraun

， Widmann

， 2018.Statistical downscaling and bias correction for climate research［M］.DOI： 10.1017/9781107588783 .

， Straus

D M

， 2002.Statistical-dynamical seasonal prediction based on principal component regression of GCM ensemble integrations［J］.Monthly Weather Review， 130（9）： 2167-2187.DOI： 10.1017/9781107588783 .

Ogega

O M

， Koske

， Kung’u

J B

， et al， 2020.Heavy precipitation events over East Africa in a changing climate： results from CORDEX RCMs［J］.Climate Dynamics， 55（3）： 993-1009.DOI： 10.1007/s00382-020-05309-z .

Sachindra

D A

， Ahmed

， Rashid Md

， et al， 2018.Statistical downscaling of precipitation using machine learning techniques［J］.Atmospheric Research， 212： 240-258.DOI： 10.1016/j.atmosres.2018.05.022 .

Sachindra

D A

， Huang

， Barton

， et al， 2013.Least square support vector and multi-linear regression for statistically downscaling general circulation model outputs to catchment streamflows［J］.International Journal of Climatology， 33（5）： 1087-1106.DOI： 10.1002/joc.3493 .

Stips

， Macias

， Coughlan

， et al， 2016.On the causal structure between CO₂ and global temperature［J］.Scientific Reports， 6（1）： 21691.DOI： 10.1038/srep21691 .

Storch

H V

， Zwiers

F W

， 1999.Statistical analysis in climate research［M］.Cambridge： Cambridge University Press.DOI： 10.1017/CBO9780511612336 .

Sun

C X

， Huang

G H

， Fan

， et al， 2019.Drought occurring with hot extremes： changes under future climate change on Loess Plateau， China［J］.Earth’s Future， 7（6）： 587-604.DOI： 10.1029/2018EF001103 .

Sun

， Liu

， Zhang

， et al， 2022.Projecting future precipitation in the Yellow River Basin based on CMIP6 Models［J］.Journal of Applied Meteorology and Climatology， 61（10）： 1399-1417.

Wilby

R L

， Dawson

C W

， 2013.The Statistical Downscaling Model： insights from one decade of application［J］.International Journal of Climatology， 33（7）： 1707-1719.DOI： 10.1002/joc.3544 .

Wilby

R L

， Wigley

M L

， 1997.Downscaling general circulation model output： a review of methods and limitations［J］.Progress in Physical Geography： Earth and Environment， 21（4）： 530-548.DOI： 10.1177/030913339702100403 .

Wilby， R L， Wigley

M L

， 2000.Precipitation predictors for downscaling： Observed and general circulation model relationships［J］.International Journal of Climatology， 20（6）， 641-661.DOI： 10. 1002/（SICI）1097-0088（200005）20： 6<641：： AID-JOC501>3.0.CO； 2-1 .

Wood

A W

， Leung

L R

， Sridhar

， et al， 2004.Hydrologic implications of dynamical and statistical approaches to Downscaling Climate Model outputs［J］.Climatic Change， 62（1）： 189-216.DOI： 10.1023/B： CLIM.0000013685.99609.9e .

Zhang

， Shen

， Xu

C Y

， et al， 2019.A new statistical downscaling approach for global evaluation of the CMIP5 precipitation outputs： model development and application［J］.Science of The Total Environment， 690： 1048-1067.DOI： 10.1016/j.scitotenv.2019.06.310 .

Zhao

H X

， Magoules

， 2012.A review on the prediction of building energy consumption［J］.Renewable and Sustainable Energy Reviews， 16（6）： 3586-3592.DOI： 10.1016/j.rser.2012.02.049 .

陈子凡，王磊，李谢辉，等， 2022.西南地区极端降水时空变化特征及其与强ENSO事件的关系［J］.高原气象， 41（3）： 604-616.DOI： /10.7522/j.issn.1000-0534.2022.00004.Chen Z F ，

Wang

， Li

X L

， Xue

Y T

， et al， 2022.Spatiotemporal change characteristics of extreme precipitation in southwestern China and its relationship with intense ENSO events［J］.Plateau Meteorology， 41（3）： 604-616.DOI： /10.7522/j.issn.1000-0534.2022.00004 .

范丽军， 2006.统计降尺度方法的研究及其对中国未来区域气候情景的预估［D］.北京：中国科学院研究生院（大气物理研究所）.Fan L J， 2006.The study of statistical downscaling method and projections of future regional climate scenarios in China［D］.Beijing： Institute of Atmospheric Physics， Chinese Academy of Sciences.

管晓丹，沈晓涵，李梦雅，等， 2023.黄河流域城镇化对地下水的影响分析［J］.大气科学学报， 46（1）： 9-17.DOI： 10.13878/j.cnki.dqkxxb.20221223002.Guan X D ，

Shen

X H

， Li

M Y

， et al， 2023.Characteristics of urbanization in the Yellow River Basin［J］.Transactions of Atmospheric Sciences， 46（ 1）： 9-17.DOI： 10.13878/i.enki.dgkxxb.20221223002 .

黄建平，张国龙，于海鹏，等， 2020.黄河流域近40年气候变化的时空特征［J］.水利学报， 51（9）： 1048-1058.DOI： 10.13243/j.cnki.slxb.20200603.Huang J P ，

Zhang

G L

， Yu

H P

， et al， 2020.Characteristics of climate change in the Yellow River basin during recent 40 years［J］.Journal of Hydraulic Engineering， 51（9）： 1048-1058.DOI： 10.13243/j.cnki.slxb.20200603 .

蓝永超，舒林，李州英，等， 2006.近50 a来黄河上游水循环要素变化分析［J］.中国沙漠， 26（5）： 849.DOI： 1000-694X （2006） 05-0849-06.Lan Y C ，

Shu

， Li

Z Y

， et al， 2006.Study on variations of water cycle factors in Upper Yellow River Basin during recent 50 years［J］.Journal of Desert Research， 26（5）： 849.DOI： 1000-694X （2006） 05-0849-06 .

李永生，王永光，王莹， 2017.黑龙江省夏季降水主模态异常型前兆信号分析［J］.气象与环境学报， 33（3）： 29-35.DOI： 10.3969/j.issn.1673-503X.2017.03.004.Li Y S ，

Wang

Y G

， Wang

， 2017， Analysis of the precursor signal of an abnormal main mode for summer precipitation in Heilongjiang province［J］.Journal of Meteorology and Environment， 33（3）： 29-35.DOI： 10.3969/j.issn.1673-503X.2017.03.004 .

罗威，罗烨泓，王威， 2022.基于机器学习的韶关地区短期日平均气温研究［J］.陕西气象，（6）： 21-25.DOI： 1006-4354 （2022） 06-0021-05.Luo W ，

Luo

Y H

， Wang

， 2022.Study on short-term daily average temperature based on machine learning in Shaoguan Region［J］.Journal of Shaanxi Meteorology，（6）： 21-25.DOI： 1006-4354 （2022） 06-0021-05 .

潘攀，祝亚丽，王纪军， 2014. 近 50年黄河流域气温变化特征及背景分析［J］.气候与环境研究， 19（4）： 477-485.DOI： 10.3878/j.issn.1006-9585.2013.13099.Pan P ，

Zhu

Y l

， Wang

J J

， 2014.Spatial-temporal variations of temperature and the cause analyses in the Yellow River Valley during recent 50 years［J］.Climatic and Environmental Research， 19（4）： 477-485.DOI： 10.3878/j.issn.1006-9585.2013.13099 .

邵鹏程，李栋梁，王春学， 2015. 近 50年黄河流域夏季降水的时空变化及其与东亚副热带西风急流的关系［J］.高原气象， 34（2）： 347-356.DOI： 10.7522/j.issn.1000-0534.2013.00194.Shao P C ，

D L

， Wang

C X

， 2015.Spatial and temporal changes of summer rain in the Yellow River Basin and its relation to the East Asia subtropical westerly jet in last 50 years［J］.Plateau Meteorology， 34（2）： 347-356.DOI： 10.3878/j.issn.1006-9585.2013.13099 .

徐宗学，隋彩虹， 2005.黄河流域平均气温变化趋势分析［J］.气象， 31（11）： 7-10.DOI： 10.7519/j.issn.1000-0526.2005.11.002.Xu Z X ，

Sui

C H

， 2005.Long-term trend of temperature in the Yellow River Basin［J］.Meteorological Monthly， 31（11）： 7-10. DOI： 10.7519/j.issn.1000-0526.2005.11.002 .

杨特群，饶素秋，陈冬伶， 2009.1951年以来黄河流域气温和降水变化特点分析［J］.人民黄河， 31（10）： 76-77.DOI： 10.3969/j.issn.1000-1379.2009.10.042.Yang T Q ，

Rao

S L

， Chen

D L

， 2009.Characterization of temperature and precipitation changes in the Yellow River Basin since 1951［J］.Yellow River， 31（10）： 76-77.DOI： 10.3969/j.issn.1000-1379.2009.10.042 .

张建云，王国庆，贺瑞敏，等， 2009.黄河中游水文变化趋势及其对气候变化的响应［J］.水科学进展， 20（2）： 153-158.DOI： 1001-6791 （2009） 02-0153-06.Zhang J Y ，

Wang

G Q

， He

R M

， et al， 2009.Variation trends of runoffs in the Middle Yellow River basin and its response to climate change［J］.Advances in Water Science， 20（2）： 153-158.DOI： 1001-6791 （2009） 02-0153-06 .

张粟瑜，岑思弦，赖欣，等， 2024.基于CMIP6多模式集合对长江上游地区暴雨的预估研究［J］.高原气象， 43（3）： 667-682.DOI： 10.7522/j.issn.1000-0534.2024.00003.Zhang S Y ，

Cen

S X

， Lai

， et al， 2024.Prediction of rainstorm in the upper reaches of the Yangtze River based on CMIP6 multi-model ensemble［J］.Plateau Meteorology， 43（3）： 667-682.DOI： 10.7522/j.issn.1000-0534.2024.00003 .

张小兵，柳礼香， 2020.1998-2018年黄河流域水资源变化特征研究［J］.地下水， 42（5）： 187-189.DOI： 10.19807/ j.cnki.DXS.2020-05-058.Zhang X B ，

Liu

L X

， 2020.Study on the change characteristics of water resources in the Yellow River Basin from 1998 to 2018［J］.Ground Water， 42（5）： 187-189.DOI： 10.19807/ j.cnki.DXS.2020-05-058 .

朱姜韬，杨庆怡，李旭，等， 2023.中国西北地区夏季降水及其东部降尺度预测模型［J］.高原气象， 42（3）： 646-656.DOI： 10.7522/j.issn.1000-0534.2022.00102.Zhu J T ，

Yang

Q Y

， Li

， et al， 2023.Characteristics and east downscaling forecast model of summer precipitation in northwest China［J］.Plateau Meteorology， 42（3）： 646-656.DOI： 10.7522/j.issn.1000-0534.2022.00102 .

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 研究区域、数据来源与方法介绍

2.1 研究区域

2.2 数据介绍

2.2.1 观测数据

图1 黄河流域海拔（单位： m）及其站点分布

2.2.2 再分析资料

2.2.3 第六次国际耦合模式比较计划（CMIP6）数据

表1 本研究所使用的CMIP6模式

2.3 统计降尺度方法介绍

2.3.1 大尺度预报因子区域的选择

2.3.2 大尺度预报因子的选择

2.3.3 基于EOF分析的逐步多元线性回归法

2.3.4 基于LightGBM的统计降尺度方法

2.3.5 数据标准化及训练集与测试集的划分

3 结果分析

3.1 黄河流域温度与降水的EOF分析

图2 1965-2014年黄河流域 （源区、上游、中游）夏季温度场EOF分解的前三个特征向量空间分布（a， b， c）与时间系数（d）

图3 1965-2014年黄河流域（源区、上游、中游）夏季降水场EOF分解的前三个特征向量空间分布（a， b， c）与时间系数（d）

3.2 潜在预报因子的选取

图4 温度降尺度值与观测值站点间相关系数的最小值， 平均值和最大值

图5 降水降尺度值与观测值站点间相关系数的最小值， 平均值和最大值

3.3 LightGBM与传统方法对气温降尺度性能的比较

图6 黄河流域内90个站点温度降尺度值与观测值的相关系数

图7 标准化后的黄河流域内90个站点温度降尺度值与观测值之间的均方根误差

图8 1972年6月（左）、7月（中）、8月（右）各站点温度标准化后的空间分布

3.4 LightGBM与传统方法对降水降尺度性能的比较

图9 黄河流域90个站点降水降尺度值与观测值的相关系数

图10 标准化后的黄河流域90个站点降水降尺度值与观测值之间的均方根误差

图11 1972年6月（左）、7月（中）、8月（右）各站点降水标准化后的空间分布

3.5 降尺度数据集的分布特征及其变异性

图12 温度的降尺度值、再分析资料和观测值的分布

图13 降水的降尺度值、再分析资料和观测值的分布

4 结论

References

2.1　研究区域

2.2　数据介绍

2.2.1　观测数据

2.2.2　再分析资料

2.2.3　第六次国际耦合模式比较计划（CMIP6）数据

2.3　统计降尺度方法介绍

2.3.1　大尺度预报因子区域的选择

2.3.2　大尺度预报因子的选择

2.3.3　基于EOF分析的逐步多元线性回归法

2.3.4　基于LightGBM的统计降尺度方法

2.3.5　数据标准化及训练集与测试集的划分

3.1　黄河流域温度与降水的EOF分析

图2 1965-2014年黄河流域（源区、上游、中游）夏季温度场EOF分解的前三个特征向量空间分布（a， b， c）与时间系数（d）

3.2　潜在预报因子的选取

图4 温度降尺度值与观测值站点间相关系数的最小值，平均值和最大值

图5 降水降尺度值与观测值站点间相关系数的最小值，平均值和最大值

3.3　 LightGBM与传统方法对气温降尺度性能的比较

3.4　 LightGBM与传统方法对降水降尺度性能的比较

3.5　降尺度数据集的分布特征及其变异性