主要气象要素和天气现象预报

一种适用于复杂地形下最高气温订正的机器学习方法

  • 周秋雪 , 1, 2 ,
  • 冯良敏 1, 2 ,
  • 陈朝平 , 1, 2 ,
  • 胡迪 1, 2
展开
  • 1. 四川省气象台,四川 成都 610072
  • 2. 高原与盆地暴雨旱涝灾害四川省重点实验室,四川 成都 610072
陈朝平(1979 -), 女, 重庆开县人, 研究员, 从事多源资料和数值预报产品的释用研究. E-mail:

周秋雪(1986 -), 女, 四川自贡人, 高级工程师, 主要从事数值模式释用与灾害性天气预报技术研究. E-mail:

收稿日期: 2024-06-21

  修回日期: 2025-03-07

  网络出版日期: 2025-11-10

基金资助

四川省重点实验室科技发展基金重大专项(SCQXKJZD202401)

四川省重点实验室科技发展基金研究型业务面上专项(SCQXKJYJXMS202401)

基于人工智能的网格要素预报技术研究青年创新团队项目(SCQXQNCXTD202401)

A Machine Learning Method for Maximum Temperature Bias Correction in Complex Terrain

  • Qiuxue ZHOU , 1, 2 ,
  • Liangmin FENG 1, 2 ,
  • Chaoping CHEN , 1, 2 ,
  • Di HU 1, 2
Expand
  • 1. Sichuan Meteorological Observatory,Chengdu,610072,Sichuan,China
  • 2. Heavy Rain and Drought-Flood Disasters in Plateau and Basin Key Laboratory of Sichuan Province,Chengdu,610072,Sichuan,China

Received date: 2024-06-21

  Revised date: 2025-03-07

  Online published: 2025-11-10

Copyright

© Editorial Department of Plateau Meteorology (CC BY-NC-ND)

摘要

为了提高复杂地形区域的2 m高度最高气温预报精度, 基于LightGBM(Light Gradient Boosting Machine, LGB)算法针对四川盆地及其周边的复杂地形, 开展了2 m最高气温的梯度建模研究。通过对多个气象要素和地形因子的选取与分析, 构建了最优模型。研究表明: (1)2024年1 -6月, LightGBM模型相比EC模式, 平均绝对误差减少了2.48 ℃, 预报准确率提高了36.97%。其中, 川西高原和攀西地区的提升效果最为显著, 准确率分别提高了67.2%和57.5%。(2)与现有的客观预报产品SPCO和SCMOC相比, LightGBM模型的预报准确率分别提升了5.1%和10.3%。尤其在攀西地区和四川盆地, 个别站点的预报效果提升最大, 分别达17.6%和23.4%。(3)LightGBM模型按月的平均绝对误差减少了2.05~2.78 ℃, 准确率提升了31.1%~41.0%, 其中4月的提升效果最为显著。(4)LightGBM模型具备良好的扩展性, 未来可通过引入时间滞后效应、 空间邻域特征, 并结合分区建模与多模型集成, 进一步提高四川省及其各区域的气温预报精度。

本文引用格式

周秋雪 , 冯良敏 , 陈朝平 , 胡迪 . 一种适用于复杂地形下最高气温订正的机器学习方法[J]. 高原气象, 2025 , 44(6) : 1589 -1599 . DOI: 10.7522/j.issn.1000-0534.2025.00027

Abstract

To enhance the prediction accuracy of the 2-meter maximum temperature in complex terrain areas, this study developed a gradient modeling approach based on the LightGBM (Light Gradient Boosting Machine, LGB) algorithm, applied to the Sichuan Basin and its surrounding regions.By selecting and and analyzing multiple meteorological and topographic factors, an optimized model was constructed.The results demonstrate that: (1) From January to June 2024, the LightGBM model reduced the mean absolute error by 2.48 ℃ and improved the forecast accuracy by 36.97% compared to EC model.Among them, the improvement effect of the west Sichuan Plateau and Panxi area was the most significant, the accuracy rate increased by 67.2% and 57.5%, respectively.(2) Compared with the existing objective forecast products SPCO and SCMOC, the LightGBM model improved prediction accuracy by 5.1% and 10.3%, respectively.Particularly in the Panxi area and the Sichuan Basin, the accuracy at individual stations improved by up to 17.6% and 23.4%, respectively.(3)The LightGBM model reduced the mean absolute error by 2.05~2.78 ℃, and increased the accuracy by 31.1%~41.0%, with the most notable enhancement occurring in April.(4)The LightGBM model exhibits strong scalability.Future work could further improve temperature prediction across Sichuan Province and other regions by incorporating time-lag effects, spatial neighborhood characteristics, and combining zoning modeling and multi-model integration.

1 引言

气温是对人们日常生活及农作物生产影响最大的气象因子之一, 气温的高低与体感舒适度有密切关系(袁萌和王彦凇, 2014)。相比暴雨、 洪涝等气象灾害, 高温的破坏性并不明显, 但其波及范围广、 影响人群大, 造成的伤害性不可低估。根据世界卫生组织数据显示(IPCC, 2018), 高温热浪引发伤亡人数的增长速度远远高于干旱和洪涝等极端天气事件(Alexander et al, 2006)。另外, 持续高温或低温可能对农作物造成严重伤害(宁晓菊等, 1999)。2022年国务院出台的《气象高质量发展纲要(2022 -2035年)》明确要求: 加快推进气象现代化建设, 努力构建科技领先、 监测精密、 预报精准、 服务精细、 人民满意的现代气象体系, 更好地满足人民日益增长的美好生活需要, 为全面建成社会主义现代化强国提供坚强支撑。2 m气温是天气预报中最基本的气象要素, 也是各项专题保障服务中必不可少的气象要素。2 m气温精准预报可以对极端高温、 干旱、 大雾、 霜冻等灾害性天气起到较好的预警预报作用(薛志磊和张书余, 2012)。
过去几十年, 数值天气预报精准度得到大幅度提高( Bauer et al, 2015Bonavita et al, 2016), 被认为是目前天气预报中最有效的预报手段。但是由于大气的混沌特性, 现阶段数值模式对温度、 降水、 风等气象要素预报与实况还存在不同程度的偏差(佟华等, 2006符娇兰和代刊, 2016孙敏等, 2018)。目前, 针对2 m气温的订正方法研究主要包括模式输出统计法、 卡尔曼滤波、 滑动双权重平均及多模式集成等方法, 并通过空间插值优化、 调整最优时窗等方案(王丹等, 2015吴启树等, 2016薛谌彬等, 2019冯良敏等, 2019a2019b陈昱文等, 2020何珊珊等, 2021)显著改善模式系统性偏差, 有效提高2 m气温的预报准确率。但上述传统方法的提高效果逐渐达到瓶颈阶段, 近年来机器学习在气象要素预报中的应用显示, 其提高效果逐渐超越许多传统预报方法。其中机器学习算法中的LightGBM(Light Gradient Boosting Machine)算法是近年来分类预测领域的研究热点, 被广泛应用于交通(熊苏生, 2018康军等, 2020)、 医疗(吴绍武和续育茹, 2019周文等, 2019)、 电力(曹渝昆和朱萌, 2019)、 金融(张国庆和昌宁, 2019叶志宇等, 2019)等众多行业, 均取得了较好的应用效果。也有不少气象学者尝试将LightGBM算法应用于气温(谭江红等, 2018冯良敏等, 2023刘杰等, 2024)、 能见度(王志宇, 2019余东昌等, 2021)、 最大风速预报订正(刘军中, 2021)以及对强对流天气的分类识别(刘新伟等, 2021)等工作中, 研究结果显示该算法在气象要素的预测预报方面具有良好的应用前景。
四川省地形地貌复杂多样, 虽然本省的2 m最高气温技巧评分在全国排名第一, 但绝对准确率较低, 其中盆地西部陡峭山区、 川西高原和攀西地区的最高气温预报准确率提升尤为困难。对于全省所有考核站点而言, 目前业务中应用的四川省气象台数值预报客观释用城镇预报指导报(SPCO)的最高气温预报准确率比中央台城镇预报指导报(SCMOC)略高, 但SPCO的预报优势主要体现在盆地低海拔地区, 而该产品在盆地西部山区、 川西高原东部和凉山州东北部的2 m最高气温预报准确率仍长期偏低。冯良敏(2023)基于LightGBM算法建立了四川省气温转折过程温度变化订正模型, 其最高、 最低气温预报准确率和平均绝对误差均较SPCO略有提高, 说明该方法对于四川省2 m温度订正有较好的适用性。本文同样基于LightGBM算法, 另新增多个下垫面因子、 实况因子和时间因子, 同时采用梯度式建模思路, 探索适用于本省复杂地形的最高气温订正方法, 进一步提高四川盆地, 特别是陡峭地形区和高海拔山区的最高气温预报准确率, 为业务提供更优的客观预报产品。

2 资料来源

本文使用了以下4类数据: (1)2021年1月1日至2024年6月30日四川省157个国家气象观测站(简称“国家站”)逐小时2 m温度观测数据。(2)对应时段ECWMF细网格模式(分辨率为0.125°×0.125°)08:00(北京时, 下同)起报的12~36 h预报资料。包括2 m温度、 2 m露点湿度、 海平面变压、 白天时段(09:00 -20:00)降水量, 以及各高度层的温度、 相对湿度、 风、 变温和变高, 并将这些要素通过双线性插值法插值到观测站点。(3)对应时段四川省气象台数值预报客观释用城镇预报指导报(SPCO)和中央台城镇预报指导报(SCMOC)20:00起报的24 h最高温度数据。(4)首套覆盖全球(83°N -83°S), 水平精度为30 m的DEM(Digital Elevation Model)数据。本文用于描述地表特征的因子均基于该数据计算得出。其中2021年1月1日至2023年12月31日的实况和模式预报数据作为建模数据, 2024年6月1 -30日的实况、 模式预报、 城镇指导报作为模型验证集数据。
四川省分区说明: 川西高原指甘孜州和阿坝州, 攀西地区指凉山州和攀枝花市, 盆地地区指四川省除川西高原和攀西地区之外剩余的17个市。157个国家站中, 盆地地区有105个, 川西高原有31个, 攀西地区有21个。此外, 文中涉及的地图是基于中华人民共和国自然资源部地图技术审查中心标准地图服务系统下载的审图号为GS(2016)1552号的中国地图制作, 底图无修改。

3 基于LightGBM算法的最高气温订正模型

3.1 算法介绍

LightGBM (Light Gradient Boosting Machine, LGB)是由微软DMTK团队基于梯度提升树(Gradient Boosted Decision Tree, GBDT)改进的一种新型Boosting集成算法, 其原理与GBDT类似(Friedman, 2001), 但与传统的GBDT框架相比, LightGBM优化使用了带深度限制的叶子生长策略、 互斥稀疏特征绑定以及单边梯度采样算法等新方法, 在保证正确率的基础上, 支持并行化学习, 使得模型训练速度及内存使用效率有了很大提高, 满足了海量数据集的应用需求(刘杰等, 2024)。
预报员的预报思路是基于各种因子进行分析, 从而判断是否会产生某类天气现象(例如高温、 暴雨、 冰雹等)。但这种思维方式大多基于历史抽象经验, 难以客观量化, 而机器学习的最大优势正是从海量的历史数据中挖掘规律。LightGBM算法的本质是一系列if-then条件判断的嵌套集成学习算法, 与预报员的预报思路不谋而合。该算法具体是将许多准确率较低的树模型组合起来, 经过不断迭代并采用梯度下降的方法, 在每次迭代时通过向损失函数的负梯度方向移动来使得损失函数越来越小, 最终得到一棵较优的树, 并以此作为预测模型(Yasser and Hemayed, 2017)。算法原理如下:
准备N个数据集样本(x 1y 1), (x 2y 2),…(xnyn ), 其中x为因变量, y为自变量, 初始化以梯度函数L获取第一颗决策树f 0x):
f 0 x = a r c m i n c i = 1 N L y i , c
设定模型迭代次数m=1, 2,…,M, 在第m次迭代过程中对每一个样本寻找负梯度方向:
γ = i m - L y i , f ( x i ) f x i f x = f m - 1 x
将计算的负梯度(xiγ im)作为样本训练下一棵决策树fmx), 对应的叶节点区域为Rjmj=1, 2,…,J, 计算最佳拟合值:
γ j m = a r g m i n γ x i R j m L y i , f m - 1 x i + γ
至此完成第m棵树的训练:
f m x = f m + 1 x + j = 1 J γ j m I x R j m
当循环迭代到M步时, 获得最终模型。
另外, 大多数机器学习工具都无法直接支持类别特征作为输入, 需要转换成多维特征, 而LightGBM增加了针对类别特征的决策规则, 可以将站号作为预报因子输入, 使模型自动学习不同站点的地形信息特征, 所以该算法对温度、 能见度等与地形地貌具有高相关性的气象要素预报十分有利。

3.2 模型建立

LightGBM模型训练分为 5个步骤(南东亮等, 2019): 数据采样、 特征工程、 模型训练、 交叉验证和模型评估。数据采样包括2 m温度实况资料(因变量)、 地形数据和模式预报(自变量)等, 并对其进行筛选和清洗, 建立可信度高的样本数据集。特征工程是LightGBM建模中最重要的部分, 由于模型最终效果受建模因子种类、 数量及其数据质量共同影响, 所以选取的建模因子要使模型尽可能最大程度学习到数据之间的内在规律, 还要避免建模因子过多导致过拟合。因此特征工程的关键是找到最能反映因变量本质的自变量因子。当处理后的数据集进入LightGBM模型后, 将经过反复的模型训练和交叉验证方式对算法进行优化。待LightGBM 模型达到最优后, 通过常用的模型评估算法对训练集和测试集进行模型检验评估。
根据天气学原理(朱乾根等, 2007), “Z”坐标系下, 大尺度系统零级简化的热力学能量方程为:
T t = - u T x + v T y + Q C P
该式表示大尺度系统中的局地温度变化主要受温度平流和非绝热加热影响。式中: u为东西风; v为南北风; Q为热量; Cp 为定压比热。本项目选取的特征因子如下: 1000~500 hPa (1000、 925、 850、 700、 500 hPa)的温度和24 h变温、 1000~200 hPa (1000、 925、 850、 700、 500、 200 hPa)的相对湿度和24 h变高、 10 m风场、 100 m风场、 1000~500 hPa(1000、 925、 850、 700、 500 hPa)的风场、 24 h海平面变压、 2 m温度、 2 m露点温度、 白天时段(09:00 -20:00)12 h降水量共计40个模式预报因子。另外还加入站号、 经度、 纬度、 海拔、 坡度、 坡向、 粗糙度、 起伏度8个描述站点地理位置和地貌特征的因子, 起报当日05:00整点温度和12:00 -15:00最高温度2个实况因子及月份作为唯一的时间因子。其中坡度、 坡向、 地表粗糙度、 地表起伏度均基于DEM数据, 利用ArcGIS软件计算得出。统计建模时段内(2021年1月1日至2023年12月31日)逐日实况2 m最高气温与51个因子之间的相关系数大小(图1)。
图1 特征因子与最高气温相关系数分布

横坐标轴Tmax_2m代表EC预报2 m最高气温, TD_2m代表EC预报2 m露点温度, T_05代表05:00整点温度, T_af代表12:00 -15:00最高温度, ΔT表示温度变化场, ΔH表示位势高度变化场, RH表示湿度场, ΔSLP表示海平面24 h变压, R12表示白天雨量, SurR表示地表粗糙度, TopR表示地表起伏度, uv分别表示uv风场, 短划线后面的数字表示所在的等压面或海拔

Fig.1 Importance coefficient of different feature vectors of each regional.The horizontal axis Tmax_2m represents the maximum temperature predicted by EC, TD_2m represents the dew point predicted by EC, T_05 represents the temperature at 05:00, T_af represents the maximum temperature from 12:00 -15:00, ΔT represents the temperature variation field, ΔH represents the potential height variation field, RH represent the humidity field, ΔSLP represents the sea level pressure variation in 24 hours, respectively, R12 represents the daytime rainfall, SurR represents the surface rough, TopR represents the Top Relief, uv represent the wind fields, respectively, the numbers after the short line represent the geopotential height or altitude

各层风的大小、 等温线疏密及风与等温线夹角可表征冷暖平流的强弱, 地面变压可表征地面冷高压和热低压活动。因此选用模式预报的各层温度、 变温、 风、 变高和地面变压作为可影响温度平流的因子[图1(a)], 其中各层温度与2 m最高气温相关性最大, 相关系数均超过了0.7, 且位势高度越低、 相关系数越高, 说明越接近地面, 温度平流对2 m气温影响越大。u越大表示西风分量越大, v越大表示南风分量越大, 特别是对流层低层, 偏南风一般表征暖湿空气, 偏北风一般表征干冷空气, uv风对2 m气温的影响需结合温度因子综合判断。相较于各层温度, 其温度变化量的相关性显著降低, 这可能是因为变化量是指20:00的24 h变化, 没有特殊天气时, 最高气温一般出现在15:00前后。冯良敏(2023)在分析四川省转折性天气过程时发现, 低层大气温度的变化量与最高气温的相关性最高。另外, 200 hPa变高与2 m最高气温也具有较好的正相关, 该因子增大可表示南亚高压增强, 而南亚高压正是位于青藏高原及邻近地区, 是北半球夏季对流层高层最强大且最稳定的控制性环流系统。
非绝热因子一般包括辐射、 感热和潜热, 其中辐射主要指太阳短波辐射和地气长波辐射。EC模式没有直接的非绝热预报产品, 因此选用各层的相对湿度来表征空气中水汽和云量、 10 m和100 m风场表征边界层的湍流和乱流。另外, 白天时段(09:00 -20:00)降水可用来反应潜热释放和中低云情况。图1(b)显示850~925 hPa的RH与最高气温呈明显的负相关, 说明低层相对湿度越大、 云量和水汽越多, 不利于地面辐射升温。而200 hPa的相对湿度与2 m最高气温呈明显正相关, 当200 hPa相对湿度较大时, 可能意味着云体垂直发展高度较高、 云层较厚, 但也有可能意味着只有高云, 而高云的云体较薄, 由细小的冰晶组成, 具有较高的透光性, 有利于地面辐射升温。因此该因子具体对2 m最高气温变化将产生何种影响需配合底层湿度综合考虑。由于南风气流和北风气流热力性质有差异, 10 m和100 m的v风与2 m最高气温均呈正相关。
图1(c)其他因子中, 除了地形地貌因子和模式预报的2 m温度、 露点温度, 还根据预报经验加入了起报当日12:00 -15:00实况最高气温和05:00整点气温作为实况因子来表征临近时效日较差的影响, 以及月份作为时间因子来表征不同季节对最高气温变化的影响。其中2个实况因子和EC模式预报的2 m温度的相关系数远远高于其余因子(超过0.8)。在所有的地形地貌因子中, 站点海拔与最高气温相关性最大, 海拔越高、 2 m最高气温越低, 这与温度的垂直递减率关系密切。其次是站点的经纬度, 站点所处的地理位置可表征其所处的气候带, 经纬度不同, 气候背景和天气特征也有差异。

2.3 检验指标

参考中国气象局《中短期天气预报质量检验办法》, 本文选取平均绝对误差(MAE)和预报准确率(FA)来表征模型输出产品对2 m最高温度的预报效果及订正性能。计算公式如下:
(1) 平均绝对误差(Mean Absolute Error)
M A E = 1 N i = 1 N F i - O i
式中: F i代表第i站的2 m气温预报值; O i代表第i站的2 m气温实况; N为预报的总站(次)数。计算时保留2位小数。
(2) 预报准确率(Forecast Accuracy)
F A = N r N f × 100 %
式中: N r为平均绝对误差≤2 ℃的站(次)数; N f为预报的总站(次)数。计算时保留1位小数。
为了全方位评估模型的预报性能和提高效果, 同时与EC模式、 四川省气象台数值预报客观释用城镇预报指导报(SPCO)和中央台城镇预报指导报(SCMOC)2 m最高气温产品作对比分析, 计算4种产品2 m最高气温的平均绝对误差和预报准确率。

2.4 模型训练

对于基于决策树的模型, 调参方法基本为以下四个步骤: (1)首先选择较高的学习率(learning_rate), 这样可以加快收敛速度, 一般为0.1附近; (2)树的深度(max_depth)、 叶节点数(num_leaves)等基本参数调整, 这是提高精确度的最重要的参数。树的深度越大, 越容易导致过拟合, 两者大致的换算关系为num_leaves=2(max_depth), 但实际调参时, num_leaves应该小于2(max_depth), 否则可能导致过拟合; (3)正则化参数调整, 降低过拟合; (4)最后降低学习率和增加迭代次数(n_estimators)来提高准确率。特征因子的所有数据进入LightGBM模型后, 将通过网格搜索方式训练调参和交叉验证方式优化算法。
先将学习率定为0.1、 树深度为7、 叶节点数为100、 迭代次数为100, 估计器boosting_type的类型默认为GBDT, 模型训练样本和交叉验证样本比例为8∶2。为了尽量提高模型效果、 避免过度拟合, 首先根据相关系数的变化特征, 初次建模选择相关系数绝对值≥0.8的因子(共计6个), 然后根据其余因子相关系数绝对值从高到低逐个加入建模, 共训练46个模型(因子数从6增至51)。除了对比每个模型测试集MAE的大小, 同时也要考虑各模型在验证集数据(2024年1 -6月)中MAE的大小, 前期随着因子逐个增加, 测试集和验证集的MAE均逐渐减小, 当加入第25个特征因子(R12)时, 验证集的MAE减小至1.43 ℃。随后继续加入特征因子, 虽然测试集的MAE在波动中略微减小, 但是验证集的MAE基本维持在1.53~1.88 ℃, 不再继续减小。因此把加入第25个特征因子的模型当作目标模型并对其进一步调参(表1), MAE最后降低至1.33 ℃, 确定该模型为本文研究的目标模型(简称为LGB, LightGBM的缩写)。该模型共使用了25个特征因子, 相关性从大到小依次为: T_af、 Tmax_2m、 T_1000、 T_925、 T_05、 T_850、 T_700、 TD_2m、 T_500、 u_500、 RH_200、 High、 Lat、 u_700、 Lon、 v_100m、 v_10m、 ∆T_500、 v_1000、 v_925、 Sta_id、 v_850、 ∆H_200、 RH_500、 R12。
表1 最终模型的主要参数

Table 1 Main parameters of the model

Learning_rate max_depth num_leaves n_estimators
0.04 8 195 500

3 LightGBM模型2 m最高温度订正效果检验

3.1 检验指标的时间差异

表2表3给出了2024年1 -6月LGB、 SPCO、 SCMOC的2 m最高气温客观预报产品以及EC模式2 m最高气温在全省和不同地区的平均绝对误差(MAE)和预报准确率(FA)。对比发现LGB的2 m最高气温的订正效果显著, 全省的平均绝对误差相较于EC模式减小2.48 ℃, 准确率提高36.97%。其中LGB在川西高原和攀西地区的提高效果尤为突出, 平均绝对误差较EC模式分别减小6.72 ℃和3.61 ℃, 准确率分别提高67.2%和57.5%。对于盆地而言, LGB平均绝对误差减小1.01 ℃, 准确率提高23.8%, 由于EC模式在盆地的准确度要远超于川西高原和攀西地区, 因此LGB的提高效果没有另外两个区域突出。由此可见, 复杂地形对于模式本身2 m最高气温的准确度是非常重要的影响因素。
表2 全省及不同地区20241 -6月的平均绝对误差

Table 2 Mean absolute error of the whole province and different regions from January to June2024

产品 平均绝对误差/℃
全省 盆地 川西高原 攀西地区
LGB 1.33 1.26 1.50 1.44
EC 3.81 2.27 8.22 5.05
SPCO 1.51 1.40 1.71 1.77
SCMOC 1.72 1.71 1.72 1.79
表3 全省及不同地区20241 -6月预报准确率

Table 3 Forecast accuracy of the whole province and different regions from January to June2024

产品 预报准确率/%
全省 盆地 川西高原 攀西地区
LGB 77.7 80.0 72.1 74.8
EC 40.8 56.2 4.9 17.3
SPCO 72.6 75.7 66.5 66.5
SCMOC 67.4 67.3 68.6 66.1
对于全省而言, 本省客观预报SPCO的预报准确度要略优于中央台客观预报SCMOC, 但不同地区的优势程度表现不同, SPCO对盆地的订正效果要优于SCMOC, 而SCMOC对于川西高原的订正效果要略优于SPCO, 因此四川省气象台预报员在进行2 m最高气温预报时会同时考虑SPCO和SCMOC在不同地区的预报优势。不论是全省还是不同地区, LGB相较于SPCO和SCMOC均有不同程度提高。其中LGB订正效果最显著的区域是攀西地区, 准确率相较于SPCO和SCMOC分别提高8.3%和8.7%; 对于盆地地区, LGB的预报准确率相较于SPCO提高了4.3%; 对于川西高原, LGB的预报准确率相较于SCMOC提高了3.5%。
图2给出了全省、 盆地地区、 川西高原和攀西地区的2 m最高气温平均绝对误差(MAE)和预报准确率(FA)的逐月变化。春季(3 -5月)EC模式的误差略大, 其中3月的MAE达4.13 ℃, 准确率仅37.9%。对于全省而言[图2(a), (b)], 2024年1 -6月LGB相较于EC模式MAE减小2.05~2.78 ℃, FA提高31.1%~41.0%; 相较于SCMOC, LGB的MAE减小0.29~0.54 ℃, FA提高7.3%~13.8%; 相较于SPCO, LGB的MAE减小0.02~0.32 ℃, FA提高0.4%~9.0%。进一步分析发现, 四川省的不同地区, LGB、 SPCO和SCMOC的逐月的订正幅度有较为明显的差异。对于盆地地区[图2(c), (d)], 1 -6月的准确度均为LGB>SPCO>SCMOC>EC, LGB的逐月2 m最高气温预报准确率均超过80%, 相较于SPCO, FA提高3.3%~14.4%, 其中3 -5月的提升幅度均超过10%。对于川西高原[图2(e), (f)], EC模式的可预报性极低, 1 -6月的MAE为7.36~9.36 ℃, FA仅2.4%~7.1%, 经过不同的客观方法订正以后, LGB、 SPCO和SCMOC的FA提高幅度均超过50%。1 -6月SPCO和SCMOC的MAE均随时间缓慢增大, 而LGB的MAE则是先增大再减小, 4 -6月LGB与SPCO和SCMOC拉开差距。LGB的FA较SPCO有提高的月份为1月和4 -6月, 其中5 -6月的FA提高均超过10%。对于攀西地区, EC的可预报性也非常低, 1 -6月的FA仅13.5%~19.8%。1 -6月LGB、 SPCO和SCMOC的MAE在波动中缓慢增大, 但LBG逐月的MAE均明显低于SPCO和SCMOC, FA也是最高的。其中较EC最高可提高65.7%(1月), 较SCMOC最高可提高17.7%(5月), 3、 5、 6月较SPCO提高均超过10%。
图2 全省及不同地区2 m最高气温平均绝对误差(左, 单位: ℃)和预报准确率(右, 单位: %)逐月变化

Fig.2 MAE(left, unit: ℃) and FA (right, unit: %) of 2 m maximum temperature in different areas of Sichuan Province

3.2 检验指标的空间差异

逐站统计LGB相较于SPCO、 SCMOC和EC的准确率提高效果, 分析发现2024年1 -6月全省157站准确率提高的百分比分别为86%、 95%和98.7%, 在所有准确率有所提高的站点中, FA提高的平均百分比分别为6.2%、 11.1%和37.4%, FA提高的最大百分比分别为17.6%、 23.4%和82.4%。因研究LGB的主要目标是替换SPCO, 因此将重点对比分析LGB相较于SPCO和SCMOC的空间提高差异。
图3为LGB相对于SPCO和SCMOC的平均绝对误差和预报准确率的逐站提高情况, 蓝色圆圈是负值, 表示LGB较SPCO(SCMOC)的MAE有所减小或FA有所降低, 红色圆圈是正值, 表示LGB较SPCO(SCMOC)的MAE有所增大或FA有所提高, 圆圈越大, 代表MAE或者FA的差值也越大。相较于SPCO, LGB对全省93%站点的MAE均有不同程度减小[图3(a)], 其中在攀西地区减小的站次比最大(100%), 且减小的幅度也最明显, 平均减小0.33 ℃, 最大可减小0.69 ℃(美姑), 且MAE减小超过0.3 ℃的站点位于安宁河谷的西侧、 东侧和南侧。在川西高原和盆地分别有93.5%和91.4%站点的MAE较SPCO有所减小, 减小最明显的区域为甘孜州东部至盆地西南部山区。相较于SCMOC[图3(b)], LGB在盆地地区的MAE减小最为显著, 其中MAE减小超过0.3 ℃的站次比达到了90.5%, 最大可减小0.7 ℃(南江), LGB在攀西地区MAE减小超过0.3 ℃的站点位于安宁河谷的东侧和南侧, 最大可减小0.89 ℃(甘洛)。
图3 LGB相较于SPCO和SCMOC的逐站平均绝对误差(a, b, 单位: ℃)和预报准确率(c, d, 单位: %)空间分布

Fig.3 Spatial distribution of MAE (a, b, unit: ℃) and FA (c, d, unit: %) compared with SPCO and SCMOC

FA差值有类似分布特征, 盆地地区、 川西高原和攀西地区LGB相较于SPCO提高站次比分别为83.8%、 87.1%和95.2%, 最大提高量分别为17.6%、 17.5%和17.1%。准确率提高超过10%的站点集中在盆地西南部、 凉山州东北部、 凉山州南部和阿坝州北部[图3(c)]。而LGB相较于SCMOC的FA提高更为显著[图3(d)], 其中盆地地区有76.2%站点的提高超过10%, 最大可提高23.1%(乐至), 对于川西高原和攀西地区, LGB的提高站次比要略低于SPCO, 分别为80.6%和90.5%, 但攀西地区有全省最大的单站提高量, 达23.4%(甘洛)。

4 结论

本文运用2021年1月至2024年6月的逐时实况资料和EC细网格模式等数据, 通过相关性分析挑选出特征因子, 用LighGBM算法建模生成的2 m最高气温客观预报产品较EC模式和目前业务使用的客观预报产品均有显著提高, 具体结论如下。
(1) 相较于EC模式, LightGBM模型(LGB)对全省2024年1 -6月的平均绝对误差减小2.48 ℃, 准确率提高36.97%。相较于省台客观预报产品(SPCO)和中央台城镇预报指导产品(SCMOC), 同时段LGB对全省预报准确率可分别提高5.1%和10.3%。且对于四川省不同地区LGB的订正效果也有显著差异, 相较于EC模式LGB在川西高原和攀西地区的提升效果尤为突出, 准确率分别提高67.2%和57.5%。相较于SPCO, LGB在攀西地区的提升站点比率最大, 达95.2%, 而盆地站点的最大提升量可达17.6%。相较于SCMOC, LGB在盆地提升的站点比率达100%, 其中76.2%站点的提升量超过10%, 而在攀西地区有单站最大提升量23.4%。
(2) 逐月检验显示, 2024年1 -6月EC模式的准确度是先减小后增大, LGB相较于EC模式平均绝对误差减小2.05~2.78 ℃, 准确率提高31.1%~41.0%, 其中4月提升最显著, 相较于SPCO, LGB准确率提高0.4%~9.0%; 相较于SCMOC, LGB准确率提高7.3%~13.8%。其中LGB在盆地逐月预报准确率均超过80%, 其中3 -5月较SPCO的提升幅度超过10%; 川西高原, LGB 5 -6月较SPCO的提升幅度超过10%; 攀西地区, LGB 3、 5、 6月较SPCO提高超过10%。
本文对全省统一建模, 虽然目前的检验结果显示LGB对位于复杂地形站点的2 m最高气温准确率有所提升, 特别是甘孜州东部至盆地西南部陡峭过渡区以及安宁河谷周边的复杂山区提升较为显著, 但四川省地形尤为复杂, 盆地底部地区、 盆地边缘地区、 川西南山地地区和川西北高原地区的部分特征因子相关系数差异显著, 特别是坡度、 起伏度在川西北高原地区和川西南山地地区有较高的相关性。因此有必要进行分区建模, 并与全省模型进行多时间尺度和空间尺度检验, 取长补短, 通过多模型集成进一步提升全省和各区的预报准确率。另外, LightGBM的可调参数较多, 本文仅对学习率、 叶节点数、 迭代数等几项基础的参数进行调整和建模试验, 同时超参数寻优是需要非常密集的计算, 因而需要更多的探索试验和更专业的硬件支持。
Alexander L V Zhang X Peterson T C, et al, 2006.Global observed changes in daily climate extremes of temperature and precipitation[J].Journal of Geophysics Research111(D5): D05109.

Bauer P Thorpe A Brunet G2015.The quiet revolution of numerical weather prediction[J].Nature525(7567): 47.

Bonavita M Holm E Isaksen L, et al, 2016.The evolution of the ECMWF hybrid data assimilation system[J].Quarterly Journal of the Royal Meteorological Society142(694): 287-303.

Friedman J H2001.Greedy function approximation: a gradient boosting machine[J].Annals of Statistics29(5): 1189-1232.

IPCC, 2018.Special report on global warming of 1.5 ℃[M].UK: Cambridge University Press.

Yasser K Hemayed E2017.Novelty detection for location prediction problems using boosting trees[M].Gervasi O, Murgante B, Misra S, et al, Lecture Notes in Computer Science, 3: 173-182.

曹渝昆, 朱萌, 2019.基于主成分分析和LightGBM的风电场发电功率超短期预测[J].上海电力学院学报35(6): 562-566.DOI: 10.3969/j.issn.1006-4729.2019.06.009.Cao Y K

Zhu M2019.Ultra-short-term prediction of wind farm power generation based on principal component analysis and LightGBM[J].Journal of Shanghai University of Electric Power35(6): 562-566.DOI: 10.3969/j.issn.1006-4729.2019.06.009 .

陈昱文, 黄小猛, 李熠, 等, 2020.基于ECMWF产品的站点气温预报集成学习误差订正[J].应用气象学报31(4): 494-503.DOI: 10.11898/1001-7313.20200411.Chen Y W

Huang X M Li Y, et al, 2020.Ensemble learning for bias correction of station temperature forecast based on ECMWF products[J].Journal of Applied Meteorological Science31(4): 494-503.DOI: 10.11898/1001-7313.20200411 .

冯良敏, 周秋雪, 曹萍萍, 等, 2023.四川地区气温转折过程2m温度变化订正研究[J].干旱气象41(1): 164-172.DOI: 10.11755/j.issn.1006-7639(2023)-01-0164.Feng L M

Zhou Q X Cao P P, et al, 2023.Study of 2 m temperature variation correction during transitional processes of temperature in Sichuan[J].Journal of Arid Meteorological41(1): 164-172.DOI: 10.11755/j.issn.1006-7639(2023)-01-0164 .

冯良敏, 周秋雪, 康岚, 2019b.四川地区EC细网格模式2m温度偏差订正研究[J].高原山地气象研究39(1): 34-40.DOI: 10.3969/j.issn.1674-2184.2019.01.006.Feng L M , ZhouQ X, KangL, 2019.Study on 2m temperature bias correction of EC model in Sichuan Province[J].Plateau and Mountain Meteorology Research, 39(1): 34-40.DOI: 10.3969/j.issn.1674-2184. 2019.01.006 .

冯良敏, 周秋雪, 陈朝平, 等 , 2019a.四川地区多模式2m温度预报性能分析及集成方法研究[J].高原山地气象研究39(2): 30-36.DOI: 10.3969/j.issn.1674-2184.2019.02.005.Feng L M , ZhouQ X, ChenC P, et al, 2019.Performance analysis and study on integrated method of multi-model 2m temperature in Sichuan Provinc[J].Plateau and Mountain Meteorology Research, 39(2): 30-36.DOI: 10.3969/j.issn.1674-2184.2019.02.005 .

符娇兰, 代刊, 2016.基于CRA空间检验技术的西南地区东部强降水EC模式预报误差分析[J].气象42(12): 1456-1464.DOI: 10.7519/j.issn.1000-0526.2016.12.003.Fu J L

Dai K2016.The ECMWF model precipitation systematic error in the east of southwest China based on the contiguou[J].Meteorological Monthly42(12): 1456-1464.DOI: 10.7519/j.issn.1000-0526.2016.12.003 .

何珊珊, 蓝盈, 戚云枫, 2021.GRAPES-GFS模式2m温度预报的最优时窗滑动订正方法[J].气象科技49(5): 746-753.DOI: 10.19517/j.1671-6345.20210092.He S S

Lan Y Qi Y F2021.Moving average of optimal time-window method for 2m temperature forecast correction of GRAPES-GFS[J].Meteorological Science Technology49(5): 746-753.DOI: 10.19517/j.1671-6345.20210092 .

康军, 张凡, 段宗涛, 等, 2020.基于LightGBM的乘客候车路段推荐方法[J].测控技术39(2): 56-62.DOI: 10.19708/j.ckjs.2020.02.010.Kang J

Zhang F Duan Z T, et al, 2020.Recommendation method of passengers' boarding sections based on LightGBM[J].Measurement and Control Technology39(2): 56-62.DOI: 10.19708/j.ckjs.2020.02.010 .

刘杰, 刘高平, 安晶晶, 等, 2024.基于机器学习的模式温度预报订正方法[J].沙漠与绿洲气象18(3): 96-104.DOI: 10.12057/jissn.1002-0799.2024.03.013.Liu J

Liu G P An J J, et al, 2024.Correction method of model temperature forecast based on machine learning[J].Desert and Oasis Meteorology18(3): 96-104.DOI: 10.12057/jissn.1002-0799.2024.03.013 .

刘军中, 2021.基于机器学习的最大风速预测系统研究与实现[D].南昌: 南昌大学.Liu J Z, 2021.Research and implementation of maximum wind speed prediction system based on machine learning[D].Nanchang: Nanchang University.

刘新伟, 黄武斌, 蒋盈沙, 等, 2021.基于LightGBM算法的强对流天气分类识别研究[J].高原气象40(4): 909-918.DOI: 10.7522/j.issn.1000-0534.2020.00075.Liu X W

Huang W B Jiang Y S, et al, 2021.Study of the classified identification of the strong convective weathers based on the LightGBM algorithm[J].Plateau Meteorology40(4): 909-918.DOI: 10.7522/j.issn.1000-0534.2020.00075 .

南东亮, 王维庆, 王海云, 2019.基于消息队列的LightGBM超参数优化[J].计算机工程与科学41(8): 1360-1365.DOI: CNKI: SUN: JSJK.0.2019-08-004.Nan D L

Wang W Q Wang H Y2019.LightGBM hyperparameter optimization based on message queue[J].Computer Engineering and Science41(8): 1360-1365.DOI: CNKI: SUN: JSJK.0.2019-08-004 .

宁晓菊, 秦耀辰, 崔耀平, 等, 1999.60年来中国农业水热气候条件的时空变化[J].地理学报70(3): 364-379.

Ning X J Qin Y C Cui Y P, et al, 1999.The Spatio-temporal change of agricultural hydrothermal conditions in China from 1951 to 2010[J].Acta Geographica Sinica70(3): 364-379.

孙敏, 袁慧玲, 杜予罡, 2018.上海地区春季最高气温预报失败案例分析[J].气象44(1): 65-79.DOI: 10.7519/j.issn.1000-0526.2018.01.006.Sun M

Yuan H L Du Y G2018.Analysis of the spring maximum 2 m temperature forecast failure in Shanghai[J].Meteorological Monthly44(1): 65-79.DOI: 10.7519/j.issn.1000-0526.2018.01.006 .

谭江红, 陈伟亮, 王珊珊, 2018.一种机器学习方法在湖北定时气温预报中的应用试验[J].气象科技进展8(5): 46-50.DOI: 10.3969/j.issn.2095-1973.2018.05.006.Tan J H

Chen W L Wang S S2018, Using a machine learning method for temperature forecast in Hubei Province[J].Advances in Meteorological Science Technology8(5): 46-50.DOI: 10.3969/j.issn.2095-1973.2018.05.006 .

佟华, 姚明明, 王雨, 等, 2006.T213L31全球中期数值天气预报系统2m温度预报误差源分析[J].气象32(2): 52-57.

Tong H Yao M M Wang Y, et al, 2006.Analysis of error sources of 2m temperature prediction in global medium-range NWF system T213L31, NMC[J].Meteorological Monthly, 32(2): 52-57.

王丹, 高红燕, 张宏芳, 等, 2015.一种逐时气温预报方法[J].干旱气象33(1): 89-97.DOI: 10.11755/j.issn.1006-7639(2015)-01-0089.Wang D

Gao H Y Zhang H F, et al, 2015.A forecast method about hourly air temperature[J].Journal of Arid Meteorological33(1): 89-97.DOI: 10.11755/j.issn.1006-7639(2015)-01-0089 .

王志宇, 2019.基于LightGBM框架的上海市大气能见度预报订正研究[D].上海: 华东师范大学.Wang Z Y, 2019.The correction of atmospheric visibility prediction in Shanghai based on LightGBM framework[D].Shanghai: East China Normal University.

吴启树, 韩美, 郭弘, 等, 2016.MOS温度预报中最优训练期方案[J].应用气象学报27(4): 426-434.DOI: 10.11898/1001-7313.20160405.Wu Q S

Han M Guo H, et al, 2016.The optimal training period scheme of MOS temperature forecast[J].Journal of Applied Meteorological Science27(4): 426-434.DOI: 10.11898/1001-7313.20160405 .

吴绍武, 续育茹, 2019.基于LightGBM的血压检测方法研究[J].生物医学工程研究38(3): 312-315.DOI: 10.19529/j.cnki.1672-6278.2019.03.10.Wu S W

Xu Y R2019.Research on blood pressure detection method based on LightGBM[J].Biomedical Engineering Research38(3): 312-315.DOI: 10.19529/j.cnki.1672-6278.2019.03.10 .

熊苏生, 2018.基于改进 LightGBM的交通模式识别算法[J].计算机与现代化278(10): 68-73+126.DOI: 10.3969/j.issn.1006-2475.2018.10.014.Xiong S S , 2018.Traffic pattern recognition algorithm based on improved LightGBM[J].Computer and Modernization, 278(10): 68-73+126.DOI: 10.3969/j.issn.1006-2475.2018.10.014 .

薛谌彬, 陈娴, 张瑛, 等, 2019.ECMWF高分辨率模式2m温度预报误差订正方法研究[J].气象45(6): 831-842.DOI: 10.7519/j.issn1000-0526.2019.06.009.

Xue C B Chen X Zhang Y, et al, 2019.Bias correction method for the 2 m temperature forecast of ECMWF high resolution model[J].Meteorological Monthly45(6): 831-842.DOI: 10.7519/j.issn , 1000-0526.2019.06.009.

薛志磊, 张书余, 2012.气温预报方法研究及其应用进展综述[J].干旱气象30(3): 451-458.

Xue Z L Zhang S Y2012.Advance in research and application about temperature forecast method[J].Journal of Arid Meteorological30(3): 451-458.

叶志宇, 冯爱民, 高航, 2019.基于深度LightGBM集成学习模型的谷歌商店顾客购买力预测[J].计算机应用39(12): 3434-3439.DOI: 10.11772/j.issn.1001-9081.2019071305.Ye Z Y

Feng A M Gao H2019.Customer purchasing power prediction of Google store based on deep LightGBM ensemble learning model[J].Journal of Computer Applications39(12): 3434-3439.DOI: 10.11772/j.issn.1001-9081.2019071305 .

余东昌, 赵文芳, 聂凯, 等, 2021.基于LightGBM算法的能见度预测模型[J].计算机应用41(4): 1035-1041.DOI: 10.11772/j.issn.1001-9081.2020081589.Yu D C

Zhao W F Nie K, et al, 2021.Visibility forecast model based on LightGBM algorithm[J].Journal of Computer Applications41(4): 1035-1041.DOI: 10.11772/j.issn.1001-9081.2020081589 .

袁萌, 王彦凇, 2014.室内空气温湿度对人体热舒适性影响的实验研究[J].建筑节能42(8): 17-20.DOI: 10.3969/j.issn.1673-7237.2014.08.004.Yuan M

Wang Y S2014.Experimental research on impact of indoor air temperature and humidity on human thermal comfort[J].Journal of Building Energy Efficiency42(8): 17-20.DOI: 10.3969/j.issn.1673-7237.2014.08.004 .

张国庆, 昌宁, 2019.基于LightGBM的银行信用卡违约研究[J].科技资讯17(12): 8-9.

Zhang G Q Chang N2019.Research on bank credit card default based on LightGBM[J].Science and Technology Information17(12): 8-9.

周文, 王瑜, 李长胜, 等, 2019.LightGBM算法在阿尔茨海默症结构磁共振成像分类中的应用[J].中国医学物理学杂志36(4): 408-413.DOI: 10.3969/j.issn.1005-202X.2019.04.008.Zhou W

Wang Y Li C S, et al, 2019.Application of LightGBM algorithm in structural magnetic resonance imaging classification of alzheimer's disease[J].Chinese Journal of Medical Physics36(4): 408-413.DOI: 10.3969/j.issn.1005-202X.2019.04.008 .

朱乾根, 林锦瑞, 寿绍文, 等, 2007.天气学原理和方法[M].北京: 气象出版社.Zhu Q G, Lin J R, Shou S W, et al, 2007.Principles and methods of meteorology[M].Beijing: Meteorological Press.

文章导航

/