基于机器学习的机场低能见度短临预报研究

  • 殷齐娥 , 1, 3 ,
  • 倪长健 , 1 ,
  • 肖安 2, 3
展开
  • 1. 成都信息工程大学大气科学学院,四川 成都 610225
  • 2. 气候变化风险与气象灾害防御江西省重点实验室,江西 南昌 330096
  • 3. 江西省气象台,江西 南昌 330096
倪长健(1970 -), 男, 安徽霍邱人, 教授, 主要从事大气物理学与大气环境研究. E-mail:

殷齐娥(1993 -), 女, 云南曲靖人, 硕士研究生, 主要从事航空气象预报技术与服务研究. E-mail:

收稿日期: 2025-01-14

  修回日期: 2025-05-20

  网络出版日期: 2025-07-22

基金资助

四川省科技教育联合基金项目(2024NSFSC1983)

Nowcasting of Airport Low Visibility Based on Machine Learning

  • Qi'e YIN , 1, 3 ,
  • Changjian NI , 1 ,
  • An XIAO 2, 3
Expand
  • 1. School of Atmospheric Sciences,Chengdu University of Information Technology,Chengdu 610225,Sichuan,China
  • 2. Jiangxi Provincial Key Laboratory of Climate Change Risk and Meteorological Disaster Prevention,Nanchang 330096,Jiangxi,China
  • 3. Jiangxi Meteorological Observatory,Nanchang 330096,Jiangxi,China

Received date: 2025-01-14

  Revised date: 2025-05-20

  Online published: 2025-07-22

Copyright

© Editorial Department of Plateau Meteorology (CC BY-NC-ND)

摘要

为减少低能见度造成的航班备降和返航, 利用地面观测数据和ECMWF高空、 地面数值预报产品, 基于机器学习算法建立景德镇机场当前和未来1 h低能见度短临预报模型。通过对比检验发现XGBoost和LightGBM机器学习算法在机场低能见度短临预报中优于SVM机器学习算法, 特征筛选对XGBoost和LightGBM机器学习算法的性能都有改善; 通过SHAP方法解释LightGBM机器学习模型, 分析各特征对模型输出的贡献。主要结论如下: (1)LightGBM和XGBoost建立的机器学习模型在机场低能见度预报方面表现良好, AUC可达0.98, 对于当前低能见度和未来1 h低能见度预报的F1_score最高可达0.92。(2)基于“机器学习特征工程要求特征相互独立”原理对特征进行清洗筛选, 有利于提高XGBoost算法模型对未来1 h低能见度的预报准确率, 而经过特征筛选的LightGBM模型在预报当前和未来1 h低能见度时比没有特征筛选的LightGBM模型漏报率更低。对当前低能见度的预报, LightGBM_24_0h模型最优, 对未来1 h低能见度的预报, XGBoost_24_1h模型最优, 且特征筛选对XGBoost算法的性能提升更大。(3)分别使用分裂次数和SHAP值分析LightGBM算法模型的特征重要性, 表明在不同特征重要性准则下, 机场实测相对湿度、 气温、 风、 海平面气压和ECMWF预报的1000 hPa相对湿度、 925 hPa垂直速度和散度、 850 hPa散度9个特征对机场低能见度的预报更重要, 且散度作为机器学习模型的输入特征可以极大提高机器学习模型的性能。(4)基于SHAP值解释特征重要性时, 排名前十的特征重要性累计占比80%, 说明在以雾为主的景德镇机场低能见度短临预报中LightGBM模型能根据关键预报因子输出预测结果, 且在预报未来1 h低能见度是否持续时, 可重点关注850 hPa散度、 1000 hPa相对湿度、 机场海平面气压和风向的变化。

本文引用格式

殷齐娥 , 倪长健 , 肖安 . 基于机器学习的机场低能见度短临预报研究[J]. 高原气象, 2026 , 45(2) : 485 -499 . DOI: 10.7522/j.issn.1000-0534.2025.00067

Abstract

In order to reduce the rate of flight diversion and return caused by low visibility, this study has established a short-term and nowcasting model of low visibility using ground observation data and the upper-air and surface forecast data of the ECMWF at Jingdezhen Airport based on machine learning algorithms.Comparing the evaluation indicators, the results find that the XGBoost and LightGBM machine learning algorithms outperform the SVM machine learning algorithm in nowcasting of the airport low visibility.A detailed comparison of the evaluation metrics was conducted both before and after feature screening in the same machine learning algorithms.The study highlights that feature screening significantly boosts the effectiveness of both models.Furthermore, the SHAP (SHapley Additive exPlanations) method elucidates the contribution of each feature to the LightGBM model's output.The main conclusions are as follows: (1) The machine learning models established by LightGBM and XGBoost perform well in airport low visibility forecasting, with the AUC reaching up to 0.98, and the F1_score for the prediction of current low visibility and the low visibility in the next one hour can reach up to 0.92.(2)Data cleaning and feature screening is conducive to improving the prediction accuracy of the XGBoost algorithm for low visibility in the next hour, according to the principle that "feature engineering in machine learning requires features to be mutually independent".Moreover the LightGBM model with feature screening has a lower false negative rate than the LightGBM model without feature selection when forecasting the current and future one-hour low visibility.For the forecast of the current low visibility, the LightGBM_24_0h model is the best.For the forecast of low visibility in the next one hour, the XGBoost_24_1h model is the best.And feature selection has a greater improvement on the performance of the XGBoost algorithm.(3) The splitting times and SHAP values are used respectively to analyze the feature importance of the LightGBM algorithm model.It shows that under different feature importance criteria, nine features, namely the measured relative humidity, air temperature, wind, sea level pressure at the airport, and the relative humidity at 1000 hPa, vertical velocity and divergence at 925 hPa, and divergence at 850 hPa predicted by ECMWF, are more important for the prediction of low visibility at the airport.And divergence, as an input feature of the machine learning model, can greatly improve the performance of the machine learning model.(4) When explaining feature importance based on SHAP values, the cumulative proportion of the top ten feature importance accounts for 80%.This indicates that in the nowcasting of low visibility at Jingdezhen Airport where fog is the main factor, the LightGBM model can output prediction results according to key forecast factors,.And when forecasting whether the low visibility in the next one hour will continue, more attention should be paid to the changes in 850 hPa divergence, 1000 hPa relative humidity, airport sea level pressure and wind direction.

1 引言

能见度与飞行的关系十分密切, 水平能见度低于1.0 km的低能见度事件是引发飞行事故最常见的因素(冯汉中等, 2006), 低能见度事件能大幅度增加航班延误、 备降的概率, 甚至造成航空事故(张序等, 2014)。景德镇机场(下文简称机场)位于江西省东北部, 根据机场地面观测资料统计发现, 雾、 降水、 霾等均有可能造成低能见度事件, 但因辐射雾形成低能见度事件的比例最高。陈翔翔等(2018)指出, 辐射雾通常发生于深秋至次年春季, 以日出前后最浓, 09:00 -10:00(北京时, 下同)消散。而09:00 -10:00正是机场上午航班进港高峰期, 准确预测低能见度现象对机场运行安全和效率都有重要意义。
能见度的预报一般依赖于天气学方法、 统计方法预报雾、 霾、 沙尘等天气现象, 从而间接预报能见度变化; 或是对数值预报的能见度预报产品进行后处理以获得更好的能见度预报。冯蕾和田华(2014)从统计和数值预报两个方面回顾了过去几十年国内外在雾预报技术上的主要研究进展, 总结了各种方法的特点及存在的缺陷。近年来机器学习算法被广泛运用于气象领域(Liu et al, 2021刘新伟等, 2021夏侯杰等, 2023李浙华等, 2024), 其在处理天气预报中的非线性问题方面展现出显著的优势, 通过机器学习算法建立能见度预测模型逐渐成为能见度预报的热点。BP神经网络模型很早就被用作能见度定量预报(曾淑玲, 2012李沛等, 2012艾洪福和石莹, 2015), 但该模型对低能见度天气这种小概率事件的预测能力差, 因此, 探索预报效果更好的模型以及模型优化改进成为低能见度定量预报的重要方向(马楚焱等, 2015张义朋, 2018苏靖晰, 2020)。同时, 也有较多研究尝试将支持向量机(Support Vector Machine, SVM)运用到能见度预报中(郑朝霞等, 2016时玮域, 2020), 结果表明SVM在能见度预测时虽具有一定优势(李才媛等, 2008), 但对核函数较为依赖(冯汉中等, 2006)。朱蕾和朱国栋(2010)使用支持向量机建立机场跑道视程预报模型, 朱国梁(2018)使用多层感知器(Multilayer Perceptron, MLP)神经网络方法建立主导能见度的回归预测模型, 朱国栋(2022)基于深度学习和逐小时能见度观测数据建立能见度回归预测模型, 实验结果均表明所建立的模型在机场能见度预测方面具有一定预测能力, 为乌鲁木齐机场主导能见度的定量客观预报提供参考。许多学者(Deng et al, 2019岳炼, 2021方楠等, 2022)基于长短期记忆模型(Long Short-Term Memory Model, LSTM)建立能见度预报模型。其中Deng et al(2019)通过调整损失函数和神经网络结构优化模型, 发现长短期记忆回归模型预测结果优于常用的随机森林方法与多层感知机模型, 依据飞机起降能见度等级建立的分类模型对能见度分级预测更加准确, 可用于机场航空气象服务; 岳炼(2021)设计了两种不同方式的特征输入, 分别为基于观测数据、 数值预报数据建模, 观测数据、 数值预报数据滚动建模, 并分别评估了不同特征输入对LSTM模型的预报精度影响, 结果表明前者在预报精度方面更优。王勇(2019)结合实测数据、 WRF数值预报模式预报数据和ECMWF(European Centre for Medium-Range Weather Forecasts)高空预报数据, 应用XGBoost算法建立上海市11个站点未来24 h的能见度预测模型, 并借助模型对各影响因子进行重要性分析。余东昌等(2021)利用随机森林(Random Forest)构建特征向量, 基于LightGBM(Light Gradient Boosting Machine)和另外三种算法建立能见度预测模型, 结果表明基于LightGBM的预测模型对2 km以下的低能见度预报效果是所有模型中最优的, TS(Threat Score)评分可达0.89。Peláez-Rodríguez et al(2023)利用差分进化(DE)和粒子群优化(PSO)两种进化算法进行特征选择, 将能见度预测的准确性平均提升了约17.3%。Ortega et al(2019)运用五种机器学习算法对能见度进行分类预测, 其中人工神经网络(ANN)获得了最高的平均准确率89.71%。
目前机场低能见度预报对预报员的经验依赖较大, 难于满足飞行需求, 而运用机器学习算法预报低能见度事件的研究不多, 特征贡献与模型输出的关系也有待进一步确定。本文基于LightGBM(Ke et al, 2017)机器学习算法, 利用机场和景德镇国家气象观测站观测资料、 欧洲中期天气预报中心ECMWF逐3 h高空和地面预报数据, 建立机场低能见度短临预报模型, 并将LightGBM预测模型的结果与XGBoost (Chen and Guestrin, 2016)、 SVM算法预测模型的结果进行对比, 同时借助特征筛选、 特征重要性、 SHAP值探讨特征贡献与模型预测输出的关系, 在取得较好预报效果的同时, 也对机器学习的预报特征重要性进行了分析。

2 数据和方法介绍

2.1 数据说明

地面数据集的数据来源于机场地面观测和景德镇国家气象观测站。其中, 机场地面观测数据为机场2020年8月24日23:00至2023年11月10日08:00逐小时观测数据, 景德镇国家气象观测站地面观测数据来源于国家气象信息中心下发的2020年8月24日23:00至2023年11月10日08:00逐小时地面观测数据。地面数据集因子包括地面风向和风速、 气温、 相对湿度、 海平面气压、 露点温度、 10 min平均能见度, 跑道视程(Runway Visual Range, RVR)共8个观测因子, 其中10 min平均能见度用作样本标签和特征相关性计算, RVR用于机场观测数据质控。由于低能见度事件较少, 完全采用机场观测可以获得的低能见度样本会很少, 景德镇国家气象观测站与机场仅相距2.7 km, 且气候特征相似, 因此将景德镇国家气象观测站的地面观测数据(不含RVR)加入数据集进行数据增强, 以解决机场低能见度样本数少的问题。
预报数据来源于 ECWMF数值模式(下文简称EC模式)输出的5个地面和21个高空数值产品, 每天08:00和20:00起报的逐3 h预报数据, 共26个预报因子, 包括850 hPa、 925 hPa、 1000 hPa三个高度层的散度(div_850、 div_925、 div_1000)、 相对湿度(rh_850、 rh_925、 rh_1000)、 比湿(spfh_850、 spfh_925、 spfh_1000)、 气温(tmp_850、 tmp_925、 tmp_1000), 850 hPa、 925 hPa、 950 hPa、 1000 hPa四个高度层的垂直速度(vvel_850、 vvel_925、 vvel_950、 vvel_1000), 500 hPa、 700 hPa、 850 hPa、 925 hPa、 1000 hPa五个高度层的位势高度(hgt_500、 hgt_700、 hgt_850、 hgt_925、 hgt_1000), 2 m露点温度(dpt_2m)和气温(tmp_2m), 海平面气压(pmsl), 3 h降雨量(rain_3h), 能见度(vis)。预报数据的时间范围为2020年8月24日23:00至2023年11月10日08:00。机场预报员日常业务参考EC模式产品和机场自动观测系统实时观测数据作能见度预报, 故本文选择EC模式预报数据和自动站观测数据做预报因子。

2.2 主要研究方法

2.2.1 数据清洗

由于机场地面观测记录中有较多缺测, 需要对观测数据进行质控。挑选2020年8月24日23:00至2023年11月10日08:00连续性较好的风向、 风速、 气温、 相对湿度、 海平面气压、 露点温度、 能见度、 RVR共8个因子的逐时观测记录。首先剔除同一时刻前6个因子中缺失两个及以上因子的观测记录, 然后采用随机森林算法(贺倩等, 2022)填充缺失的能见度观测值。由于RVR数值在能见度低于1500 m时, 与能见度数值接近, 故参考RVR对填充的能见度值进行手动订正, 以对观测数据进行质量控制。至此, 形成以风向、 风速、 气温、 相对湿度、 海平面气压、 露点温度共6个特征组成的初级观测特征, 而能见度数据用于确定机器学习的标签。
通过两次线性插值获得景德镇国家地面观测站和机场的逐小时预报数据作为训练模型的初级预报特征。具体做法是将ECMWF预报数据经过双线性插值到机场和景德镇国家地面观测站, 获得两个站点的逐3 h预报数据; 再将逐3 h预报数据进行分段线性插值(Ibarra et al, 2019), 得到逐小时预报数据, 一共26个初级预报特征。预测标签为当前及未来1 h有无低能见度天气。所有32个初级特征和预测标签均存在时, 记为一条完整记录, 总共获得56276个完整且连续的逐小时记录, 用于机器学习模型训练。基于32个初级特征建立的LightGBM和XGBoost分别记为LightGBM_32和XGBoost_32。

2.2.2 特征工程

2.2.2.1 定性特征哑编码

机场观测数据中风向包含了静风C和风向不定VRB两种特殊的文本特征, 本文采用定性特征哑编码(天池平台, 2020)对文本型的特征进行转换, 用0替换C, 用9999替换VRB。

2.2.2.2 根据各特征的相关性进行特征选择

Manandhar et al(2019)指出机器学习特征工程要求特征之间相互独立, 应避免各因子之间的共线性对模型预报造成干扰, 因此有必要在建模前分析预报因子之间的偏相关关系, 在相关性强的因子中进行有选择的剔除。计算32个特征和机场能见度观测值之间的相关系数, 其中相关系数绝对值大于0.85为强相关。表1列出了初级特征之间强相关的预报因子。从表1中可以看出: (1)925 hPa的位势高度与1000 hPa、 850 hPa的位势高度存在强相关关系, 剔除925 hPa位势高度特征。(2)1000 hPa、 925 hPa、 850 hPa三个高度层的比湿两两强相关, 相关系数绝对值均在0.9以上, 低层比湿特征选一个即可, 同时考虑到1000 hPa、 925 hPa的比湿与1000 hPa的位势高度有强相关关系, 故选择850 hPa比湿特征。(3)海平面气压与1000 hPa位势高度、 850 hPa气温、 925 hPa气温有强相关关系, 剔除海平面气压特征。(4)850 hPa气温、 925 hPa气温分别与1000 hPa气温、 2 m气温强相关, 剔除1000 hPa气温、 2 m气温两个特征。(5)850 hPa气温、 925 hPa气温之间具有强相关性, 应剔除一个, 考虑机场能见度与925 hPa气温的相关性略高, 因此保留925 hPa气温特征。(6)露点温度观测值和2 m气温观测值之间有正的强相关关系(0.86), 二者与机场能见度观测值的相关系数分别为0.05和0.20, 2 m气温观测值与机场能见度的相关性更大, 保留2 m气温观测特征。(7)1000 hPa、 950 hPa、 925 hPa、 850 hPa四个高度层的垂直速度彼此之间的相关系数绝对值均不超过0.25, 1000 hPa、 925 hPa、 850 hPa三个高度层的散度两两之间的相关系数绝对值均不超过0.30, 且与其他特征相关性不高, 故保留各高度层的垂直速度特征和散度特征。至此, 从32个初级特征中筛选出24个特征参加模型训练(表2)。基于24个筛选特征建立的LightGBM和XGBoost分别记为LightGBM_24和XGBoost_24。
表1 强相关的预报因子

Table 1 Factors with high correlation

预报因子1 预报因子2 相关系数
hgt_1000 spfh_1000 -0.87
hgt_1000 spfh_925 -0.87
hgt_1000 hgt_925 0.89
hgt_1000 prmsl 0.89
hgt_850 hgt_925 0.88
prmsl tmp_850 -0.88
prmsl tmp_925 -0.87
spfh_1000 spfh_850 0.91
spfh_1000 spfh_925 0.97
spfh_850 spfh_925 0.94
tmp_1000 tmp_850 0.90
tmp_1000 tmp_925 0.91
tmp_2m tmp_850 0.88
tmp_2m tmp_925 0.91
tmp_850 tmp_925 0.96
dpt_ob tmp_ob 0.86

相关系数绝对值在0.85以上(The absolute value of the correlation coefficient is above 0.85)

表2 用于模型训练的24个特征

Table 2 The 24 features for model training

特征类别 特征名称
EC预报特征(19个) div_1000、 div_850、 div_925、 dpt_2m、 hgt_500、 hgt_700、 hgt_850、 hgt_1000、 rain03、 rh_1000、 rh_850、 rh_925、 spfh_850、 tmp_925、 vis、 vvel_1000、 vvel_850、 vvel_925、 vvel_950
实时观测特征(5个) wind_ob、 windspeed_ob、 tmp_ob、 rh_ob、 prmsl_ob

div、 hgt、 rh、 spfh、 tmp、 vvel 分别为1000~500 hPa 各层散度、 位势高度、 相对湿度、 比湿、 气温、 垂直速度, prmsl为海平面气压, ob代表景德镇国家站和机场地面观测实况数据(In the table, div, hgt, rh, spfh, tmp, and vvel represent the divergence, geopotential height, relative humidity, specific humidity, air temperature, and vertical velocity of each layer from 1000 to 500 hPa respectively.prmsl is the sea level pressure, and ob represents the ground observation actual data of Jingdezhen National Station and the airport)

2.2.2.3 样本均衡

当样本不均衡时, 机器学习算法模型的准确率易受多数类样本的干扰, 因此在训练模型之前需要对样本进行均衡处理。王琮(2022)提出了一种基于迁移学习的受限样本下冰雹识别建模方法。王坤等(2020)根据多数类样本和少数类样本的比例设置过采样倍例, 采用合成少数类过取样方法构建短时强降水预报模型的训练样本集。黄威和牛若芸(2017)采用混合滑动训练期的方法将正负样本的数量比例控制在1∶2。根据机场气候志统计, 年均低能见度日出现的概率为0.04, 属于小概率事件。为帮助模型更好的识别低能见度样本, 本文采用朴素随机下采样方法(Moon et al, 2020)从非低能见度样本类中取出低能见度样本数量两倍的非低能见度记录, 与低能见度样本组成模型训练样本, 其中80%作为训练集, 20%作为测试集, 选用LightGBM、 XGBoost、 SVM分别建立二分类模型, 预测当前及未来1 h是否会出现低能见度天气。

2.2.3 模型训练

机场低能见度主要受辐射雾影响, 研究暂不考虑降水的影响, 剔除小时降水量大于0.0 mm·h-1的样本。根据机场和景德镇国家站能见度的逐时观测值确定样本的分类标签: 当前的能见度值确定标签target, 未来1 h的能见度值确定标签target+1。本文将能见度<1 km的样本标签为1, 能见度≥1 km的样本标签为0, 挑选出当前时次低能见度样本435个, 下一时次低能见度样本431个, 分别与朴素随机下采样得到的870个非低能见度样本组合成模型训练样本, 运用机器学习模型预测当前及未来1 h是否有低能见度现象。
网格搜索法(Zhou et al, 2019)是以穷举搜索的形式, 对指定参数的取值进行排列组合, 在训练集上多次迭代后达到调整各个模型主要参数的目的, 本文使用该方法, 结合5折交叉验证法(姜红等, 2021)确定模型主要参数的最佳组合。具体方法为: 先对比交叉验证平均准确率和测试集的准确率, 判断模型的拟合效果, 再依据模型拟合情况, 人工增加或删除网格搜索法的指定参数, 多次交替使用网格搜索法和人工调参, 直至机器学习模型的准确率最大, 且与交叉验证平均准确率基本相等, 得到最优模型。

2.2.4 模型评估

本文采用ROC曲线对模型的性能进行可视化, 通过对比分析模型的准确率(Accuracy)、 精确率(Precision)、 召回率(Recall)、 F1_score、 AUC值(ROC 曲线下面积)进行评估(Tao et al, 2024)。其中F1_score是评估分类模型性能的综合性指标, 是精确率和召回率的调和均值, F1-Score越高, 模型对预测目标的预测能力越好(张睿智等, 2024)。

3 结果和分析

本文使用网格搜索法对三种机器学习算法模型进行调参, 人工辅助调整备选参数, 当交叉验证平均准确率和测试集的准确率基本相等时, 得到模型参数的最佳组合。表3为基于32个初选特征训练所得的三个机器学习模型的关键评估指标和对EC模式的逐3 h能见度预报能力评估。
表3 特征筛选前各模型的交叉验证平均准确率和准确率

Table 3 The mean cross-validation score and accuracy of each model before feature screening

模型名称 LightGBM_32 XGBoost_32 SVM EC
预测目标 当前 未来1 h 当前 未来1 h 当前 未来1 h 逐3 h
交叉验证平均准确率 0.90 0.88 0.91 0.89 0.64 0.67 -
准确率 0.93 0.93 0.93 0.92 0.61 0.65 0.99
F1_score(低能见度) 0.91 0.89 0.91 0.89 0.00 0.00 0.00
对比表3中三种机器学习模型和EC模式的评估指标可知, 虽然EC模式预报能见度的准确率高达0.99, 但低能见度的F1_score为0, 表明EC模式对于1 km以下能见度的预报能力较差, 满足不了机场对低能见度预报精度的需求。三种机器学习模型运行结果中, LightGBM_32和XGBoost_32模型对低能见度的短临预报准确率均在0.90以上, 低能见度的F1_score值均超过0.80, 但SVM模型对低能见度的短临预报准确率仅0.65, 低能见度的F1_score值为0, 表明LightGBM_32和XGBoost_32模型的预报能力明显高于SVM模型, 但LightGBM_32和XGBoost_32模型的评估指标值相差不大。为进一步对比两个模型的性能, 本文剔除相关性大于0.85的8个特征, 减少特征共线性对模型的干扰, 将剩余的24个特征用于LightGBM算法模型和XGBoost算法模型的训练, 对模型预测性能进行综合评估, 并通过ROC曲线将分类模型的性能可视化。

3.1 特征筛选结果分析

对比特征筛选前后LightGBM和XGBoost两种算法预测当前和未来1 h低能见度的ROC曲线(图1), 两种算法模型性能基本相同, AUC均为0.98。
图1 特征筛选前后LightGBM和XGBoost预测当前(a, b)和未来1 h (c, d)低能见度的ROC曲线

Fig.1 ROC curves of LightGBM and XGBoost for predicting present (a, b) and one-hour-later (c, d) low visibility by feature screening

为进一步对比四个模型在特征筛选前后对于当前和未来1 h低能见度的预测效果,表4表5列出了最佳参数模型预测当前和未来1 h低能见度的预测评估指标值,表中0和1为分类标签,0表示非低能见度类别,1表示低能见度类别,ln表示学习率learning_rate,n表示基学习器数量n_estimators。由表4可知,四个模型预测当前低能见度的准确率均为0.93, 其中LightGBM_24_0h模型F1_score为0.92, 在四个模型中综合性能最好, 且准确率、 精确率和召回率也最高。可见, 在预报当前是否会出现低能见度时, 使用LightGBM_24进行训练, 建立的模型性能最优, 误报率和漏报率最低, 但特征筛选前后, 同一种算法模型的准确率、 精确率不变, 仅召回率增加0.01, 表明特征筛选对当前低能见度预报模型的准确率影响并不明显, 也不影响模型的误报率, 但可以减少模型的漏报率。
表4 特征筛选前后LightGBM算法和XGBoost算法预测当前低能见度的分类报告

Table 4 Classification reports of LightGBM and XGBoost of present low visibility by feature screening

模型名称 准确率 精确率 召回率 F1_score 最佳参数
0 1 0 1 0 1 ln n
LightGBM_32_0h 0.93 0.95 0.90 0.94 0.92 0.94 0.91 0.2 200
LightGBM_24_0h 0.93 0.96 0.90 0.94 0.93 0.95 0.92 0.1 500
XGBoost_32_0h 0.93 0.96 0.89 0.92 0.93 0.94 0.91 0.1 150
XGBoost_24_0h 0.93 0.96 0.89 0.93 0.93 0.94 0.91 0.1 150
表5 特征筛选前后LightGBM算法和XGBoost算法预测未来1 h低能见度的分类报告

Table 5 Classification reports of LightGBM and XGBoost of low visibility in an hour by feature screening

模型名称 准确率 精确率 召回率 F1_score 最佳参数
0 1 0 1 0 1 ln n
LightGBM_32_1h 0.93 0.93 0.92 0.96 0.87 0.94 0.89 0.03 1250
LightGBM_24_1h 0.93 0.94 0.92 0.96 0.88 0.95 0.90 0.2 1250
XGBoost_32_1h 0.92 0.94 0.89 0.94 0.89 0.94 0.89 0.2 20
XGBoost_24_1h 0.94 0.95 0.92 0.96 0.91 0.96 0.92 0.3 75
表5是特征筛选前后LightGBM和XGBoost两种机器学习算法对未来1 h低能见度的预测效果。四个模型的准确率在0.92及以上, F1_score在0.89及以上, 模型综合性能良好, 模型预测低能见度的精确率和召回率均在0.87及以上, 误报和漏报较少。对于未来1 h低能见度的预报, 特征筛选后模型的F1_score均有增加, 说明在现有特征下, 剔除相关性高的特征可以提高两种算法模型预测未来1 h低能见度的综合性能, 且XGBoost算法模型比LightGBM算法模型提高程度大, 尤其精确率的提高最明显, 增加了0.03, 表明特征筛选有利于减少模型误报。而XGBoost算法模型比LightGBM算法模型提高程度大可能与本文样本量和特征数量少有关, 也可能与LightGBM 算法使用了独占特征绑定(EFD, Exclusive Feature Bundling)技术有关(Ke et al, 2017)。
综上, 对于当前和未来1 h景德镇机场低能见度的预报, 特征筛选都有利于提高模型的性能, 通过特征相关系数的对比分析, 剔除高相关性的特征, 减少多个特征间共线性对模型的干扰, 在不降低模型准确率的情况下, 不仅提高机器学习模型的效率, 还能改进模型性能(陆冰鉴等, 2022)。

3.2 特征重要性

LightGBM和XGBoost两种算法的机器学习模型对于机场低能见度具有良好的预报能力, 但各预报因子对模型的重要程度是否相同呢?叶宇辰等(2024)利用机器学习方法开展长江流域夏季降水延伸期预报试验, 并对三个最优机器学习模型的集合计算不同预报因子的贡献大小, 探讨了长江流域表层土壤湿度对长江流域延伸期降水的影响机理。对于树类模型(XGBoost、 LightGBM等), 可以通过模型的特征重要性(feature_importances)方法来获取特征重要性, 进而对比分析哪些预报因子比较重要。LightGBM的feature_importances可以通过特征的分裂次数或使用该特征分裂后的增益来衡量, XGBoost的feature_importances可以通过特征在所有树中作为划分属性的次数、 利用该特征作为划分属性带来的平均增益或使用该特作为分割影响的平均样本数来衡量。一般情况下, 不同的衡量准则得到的特征重要性顺序会有差异, 本文使用分裂次数作为衡量特征重要性的准则。也就是说, 一个特征在模型中用来构建决策树的次数越多, 它的重要性就相对越高; 若一个特征在不同的模型中都是比较重要的, 那么该特征对标签有较好的预测能力。
图2可知, 预报当前低能见度现象的四个模型排名第一重要的特征都是rh_ob, 且EC预报925 hPa相对湿度的重要性排名在四个模型位于前十, 表明地面实际相对湿度和近地层的相对湿度对当前低能见有较好的预测能力, 且模型尤其依赖于地面实际相对湿度rh_ob。刘季秋等(2023)根据浦东机场2000 -2019年逐时观测资料, 统计低于2 km的能见度与其他地面气象要素的关系, 发现低于2 km的能见度与相对湿度呈指数关系, 回归系数R为0.39, 通过了α=0.05的显著性检验。这与本文机器学习模型中最重要的特征是地面相对湿度相符。同时, vvel_925和vvel_950、 tmp_ob三个特征的重要性均位于前五, windspeed_ob、 div_1000两个特征重要性位于前八, 说明近地层大气的垂直速度、 机场实际气温和风速、 1000 hPa散度是预报低能见度的重要因子(吴彬贵等, 2017), 而这些因子反映的是近地面气层的层结条件, 与低能见度的形成密切相关(赵翠光等, 2022)。由此可见, 基于LightGBM算法和XGBoost算法建立景德镇机场当前低能见度的四个预测模型是具有物理意义的。
图2 特征筛选前后LightGBM (a、 b)和XGBoost (c、 d)预测当前出现低能见度的特征重要性

Fig.2 The feature importance of LightGBM algorithm and XGBoost algorithm in predicting the current low visibility by feature screening [(a) and (b) are LightGBM algorithms, (c) and (d) are XGBoost algorithms]

图3可以看到, rh_ob的重要性在预报未来1 h低能见度的模型中排名第一或第二, 且在重要性排名前十的特征中, 相对湿度特征有2~3个, rh_ob和rh_1000均在其中, 说明地面及近地层大气的相对湿度特征仍然是预报未来1 h低能见度的重要因子。同时, windspeed_ob、 wind_ob、 tmp_ob、 div_850、 prmsl_ob这六个特征均在4个模型特征重要性排名前十位之列。对比图2图3, 无论预报当前低能见度还是预报未来1 h低能见度现象, 重要性排名前十特征中均有rh_ob、 tmp_ob、 windspeed_ob, 其中rh_ob基本排名第1位; tmp_ob、 windspeed_ob两个特征在预测未来1 h低能见度的模型中重要性排名比预测当前低能见度时排名靠前; vvel_925、 vvel_950、 div_1000三个特征对预测当前低能见度的模型更重要, 但div_850、 rh_1000、 prmsl_ob、 wind_ob四个特征对预测未来1 h低能见度的模型更重要。由此可知, 无论预报当前低能见度还是未来1 h低能见度, 地面相对湿度都是最重要的因子, 在预报当前低能见时, 1000 hPa散度、 925 hPa和950 hPa垂直速度的重要性更大, 但预报未来1 h低能见度时, 850 hPa散度、 1000 hPa相对湿度、 机场海平面气压和风向的重要性更大。这一区别对于机场预测未来1 h低能见度是否持续具有重要指导意义。
图3 特征筛选前后LightGBM(a、 b)和XGBoost(c、 d)预测未来1 h出现低能见度的特征重要性

Fig.3 The feature importance of LightGBM algorithm (a, b) and XGBoost algorithm (c, d) in predicting the low visibility in an hour by feature screening

张庆等(2024)基于LightGBM算法, 通过对比试验分批引入地面观测特征、 ERA5再分析资料、 经验因子、 经纬度因子建模, 结果表明增加ERA5等压面层物理量后LightGBM模型的性能显著提升, 0~36 h内大雾预报的TS达0.3以上。而本文同样基于LIghtGBM算法使用地面观测特征和ECMWF预报特征建立的低能见度预报模型, TS评分为0.84和0.81。除去多站样本和预报时效两者的不同, 本文在模型输入因子中增加了1000 hPa、 925 hPa、 850 hPa三个高度层的散度特征, 且各高度层散度特征是LightGBM算法预报当前和未来1 h低能见度模型中重要性排名前十的特征之一, 表明在建立低能见度预报模型时散度特征是一个需要考虑的重要特征。
此外, 对比剔除的8个特征(hgt_925、 prmsl、 spfh_925、 spfh_1000、 tmp_1000、 tmp_2m、 tmp_850、 dpt_ob)在特征筛选前的重要性排名都在中位数以后, 也证明以特征的相关性为依据筛选特征, 可有效避免特征冗余, 降低机器学习的特征维度。

3.3 基于SHAP值对模型的解释

传统的feature importance只显示哪个特征重要, 但我们并不清楚该特征是怎样影响预测结果的, 因此, 本文引入SHAP值(SHapley Additive exPlanations)更详细地解释模型的预测, 展示每个特征对于单个预测的贡献程度。对于每个预测样本, 模型都产生一个预测值, SHAP值就是该样本中每个特征所分配到的数值。SHAP值不仅能反映出每一个样本中特征的影响力, 而且还表现出影响的正负性(夏侯杰和肖安, 2024)。本文以LightGBM_24_1h模型为例, 基于SHAP值解释模型的预测。图4是以散点展示24个特征大小的SHAP值分布图和各特征SHAP值绝对平均值重要性柱状图, 即特征值对模型输出的贡献和全局重要性。由各样本的SHAP值散点图[图4(a)]可知, rh_ob特征的SHAP值分布区间最大且表现为不连续的三部分: 强负贡献区、 无明显贡献区、 强正贡献区, 且所有小值样本集中在SHAP值负贡献侧-10~-5, 该区间也夹杂部分特征值相对较大的样本; 另有部分大值样本的SHPA值在0值附近, 表明没有明显贡献; 其余大值样本集中在正贡献侧, 且特征值越大对预测的正贡献越大, 甚至SHAP值集中在10~15, 说明地面相对湿度对预测低能见度的影响最大, 且为正贡献, 即地面相对湿度较低时低能见度几乎不会出现, 随着地面相对湿度增大, 出现低能见度的可能性越大。其他重要性前十特征中, tmp_ob、 prmsl_ob、 windspeed_ob、 wind_ob、 div_1000特征的小值样本集中在正贡献侧, 大值样本集中在负贡献侧, 说明气温低、 风速小、 近地层大气散度小或辐合会增加低能见度的可能性, 较高的取值则减小低能见度的可能性。而rh_1000、 div_925的大值样本集中在正贡献侧, vvel_925的弱值样本集中在正贡献侧, 表明近地层相对湿度高、 低层大气散度大、 垂直运动弱有利于低能见度发生。特征在SHAP值为0的地方出现“膨大”, 表明该特征对模型预测的贡献小。取每个特征的SHAP值的绝对平均值作为该特征的重要性[图4(b)], rh_ob的重要性排名第一, 占比39%, 前十个特征重要性累计占比80%, 满足对模型解释的需求。对比图4(b)与图3(b), 在不同特征重要性准则下rh_ob、 tmp_ob、 windspeed_ob、 prmsl_ob、 rh_1000、 vvel_925、 wind_ob、 div_925、 div_850九个特征重要性均排名前十。
图4 LightGBM_24算法预测未来1 h低能见度模型中各特征的SHAP值(a)和重要性(b)

Fig.4 SHAP values (a) and importance (b) of each feature in the low-visibilityLightGBM_24 algorithm model after one hour

图5图6详细展示了一个低能见度样本(正样本)和一个非低能见度样本(负样本)的每个特征对预测结果的贡献, 基本值(base alue)是模型对样本集预测值的均值, f(x)(model output)表示模型预测目标的输出值, 颜色和箭头表示特征将模型的预测结果从基本值推动到最终的取值f(x): 将预测推高的特征用红色表示, 将预测推低的特征用蓝色表示, 且特征的长度越长, 对预测的影响越大。从图5图6可知, LightGBM_24_1h模型的基本值为-7.1, 正样本的特征将预测输出值推高, 负样本的特征将预测输出值推低。图5正样本的rh_ob值为97%, 对预测的正影响最大, 将f(x)大幅度推高。图6负样本的rh_ob值为62%, 对预测的负影响最大, 将f(x)大幅推低。
图5 一个正样本特征的影响图

Fig.5 Impact of each feature for a positive sample

图6 一个负样本特征的影响图

Fig.6 Impact of each feature for a negative sample

4 讨论和结论

4.1 讨论

在本文中, XGBoost算法模型比LightGBM算法模型评分高, 特征筛选后模型的F1_score也有所增加, 一方面这可能与样本量、 特征数量少有关。例如LightGBM对站点最高、 最低气温预报能力优于主观预报, 但当温度变化剧烈时, 由于样本数较少, 机器学习方法可能会略差于主观预报(孙康慧等, 2024)。另一方面, 也可能与LightGBM 算法使用了独占特征绑定技术有关。独占特征绑定可以有效地减少特征的数量, 从而加速训练过程, 这是LightGBM算法比XGBoost算法效率高的原因之一, 但互斥特征的绑定有可能会忽视特征之间的微小信息或特征之间的交互作用。
本文主要考虑的是大雾天气造成低能见度事件, 因此在构造样本时需要剔除因为降水导致的低能见度。张庆等(2024)在研究京津冀地区低能见度时, 将小时降水量高于0.5 mm·h-1的样本进行剔除, 但将该阈值用于景德镇机场低能见度预测建模时, 发现特征的SHAP值较为分散, “膨大”现象并不明显(图略), 分析原因与南北方地区的低能见度和降水地域性有关, 弱降水导致的雨雾与辐射雾的形成机制也不一样, 因此在运用SHAP值解释模型预测时, 特征的SHPA值表现得不够集中。
对比LightGBM_24模型对不同时效低能见度的预测评估指标(表6)发现, LightGBM_24模型的预报准确率在5 h以内均在0.84以上, 随着预报时效增加, 模型的预报准确率逐渐降低。虽然模型对非低能见度的综合预报能力在第5 h降低最明显, 低于0.90, 但预报低能见度的综合能力始终保持在0.84以上, 预报也是有一定可用性的。
表6 LIghtGBM_24模型对不同预报时效低能见度的预报准确率对比

Table 6 Classification reports of LightGBM_24 for various forecast times

预报时效 准确率 精确率 召回率 F1_score 最佳参数
0 1 0 1 0 1 ln n
LightGBM_24_0h 0.93 0.96 0.90 0.94 0.93 0.95 0.92 0.1 500
LightGBM_24_1h 0.93 0.94 0.92 0.96 0.88 0.95 0.90 0.2 1250
LightGBM_24_2h 0.94 0.97 0.89 0.93 0.95 0.95 0.92 0.01 900
LightGBM_24_3h 0.88 0.92 0.82 0.89 0.86 0.90 0.84 0.1 200
LightGBM_24_4h 0.91 0.94 0.85 0.91 0.90 0.93 0.88 0.02 900
LightGBM_24_5h 0.84 0.87 0.87 0.79 0.88 0.78 0.88 0.2 50

4.2 结论

本文基于机场观测数据和EC模式预报产品, 建立LightGBM算法和XGBoost算法机器学习模型, 对机场当前低能见度和未来1 h低能见度现象进行二分类预测, 根据特征相关系数剔除部分特征, 对比不同机器学习模型的预报性能和稳定性, 以挑选适合机场低能见度短临预报的机器学习模型, 并采用SHAP值对LightGBM算法模型进行解释, 对比分析不同标准下特征的重要性及其对模型预测的贡献。主要结论如下:
(1) 特征筛选前后, 预测当前低能见度和未来1 h低能见的LightGBM算法和XGBoost算法模型ROC曲线均靠近左上角, AUC为0.98, 表明两种算法模型对于机场低能见度分类预测性能良好。我国大部分机场都有其特殊的环境, 低能见度事件的发生与其显著的局地性和地域性特征密切相关, 机器学习模型可以地关注机场独特的微小气候环境, 也能从较大尺度环流背景中学习低能见度发生的规律, 能有效弥补机场预报员预报经验的不足, 提高机场预报准确性。
(2) 依据特征的相关性进行特征筛选后, 不同算法模型综合性能均有提高, 对于当前低能见度的预测, 主要表现为减少低能见度的漏报率, 对于未来1 h低能见度的预报, 主要表现为减少低能见度的误报率, 其中, XGBoost算法模型的性能提高更大, LightGBM算法的性能更稳定, 在时间方面更具优势, 更适合用于搭建中小机场低能见度预报模型。
(3) 文中使用分裂次数作为衡量特征重要性的准则, 不同模型均认为机场当前实测相对湿度是预测短时间内低能见度事件最重要的特征。在通过SHAP值分析LightGBM算法模型的特征重要性时, 当前实测相对湿度的特征重要性占比39%, 排名第一。其次, 机场实测相对湿度、 风速、 海平面气压和EC预报的近地面相对湿度、 垂直速度、 散度都是最重要的特征, 且散度作为特征输入可以极大提高模型性能。
(4) 根据模型预报当前和未来1 h低能见度的主要特征差异可知, 对于未来1 h低能见度的预报, 需要重点关注850 hPa散度、 1000 hPa相对湿度、 机场海平面气压和风向的变化。这符合工作经验, 但如何根据这些特征预报未来1 h低能见度是否持续, 有待进一步研究。
Chen T Q Guestrin C2016.XGBoost: a scalable tree boosting system[C].In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.DOI: 10.1145/2939672.2939785 .

Deng T Cheng A J Han W, et al, 2019.Visibility forecast for airport operations by LSTM neural network[C].ICAART(2): 466-473.

Ibarra L Balderas D Ponce P, et al, 2019.Fast execution of black-box algorithms through a piece-wise linear interpolation technique[J].Arabian Journal for Science and Engineering44(11): 9443-9453.

Ke G L Meng Q Finley T, et al, 2017.LightGBM: a highly efficient gradient boosting decision tree[J].Advances in Neural Information Processing Systems.30: 3149-3157.

Manandhar S Dev S Lee Y H2019.A data-driven approach for accurate rainfall prediction[J].IEEE Trans Geosci Remote Sens57(11): 1-9.

Moon S H Kim Y H2020.Forecasting lightning around the Korean Peninsula by postprocessing ECMWF data using SVMs and undersampling[J].Atmospheric Research, 243: 105026-105026.

Ortega L Otero D Otero C2019.Application of machine learning algorithms for visibility classification[C].IEEE International Systems Conference, 1-5.DOI: 10.1109/SYSCON.2019.8836910 .

Peláez-Rodríguez C Pérez-Aracil J Casanova-Mateo C, et al, 2023.Efficient prediction of fog-related low-visibility events with machine learning and evolutionary algorithms[J].Atmospheric Research, 295: 106991.

Tao H W Niu X X Xu L, et al, 2024.A comparative study of software defect binomial classification prediction models based on machine learning[J].Software Quality Journal32(3): 1203-1237.

Liu X W Duan H X Huang W B, et al, 2021.Classified early warning and forecast of severe convective weather based on LightGBM algorithm[J].Atmospheric and Climate Sciences11(2): 284-301.

Zhou J Li E M Yang S, et al, 2019.Slope stability prediction for circular mode failure using gradient boosting machine approach based on an updated database of case histories[J].Safety Science, 118: 505-518.DOI: 10.1016/j.ssci.2019.05.046 .

艾洪福, 石莹, 2015.基于BP人工神经网络的雾霾天气预测研究[J].计算机仿真32(1): 402-405415.

Ai H F Shi Y2015.Study on prediction of haze based on BP neural network[J].Computer Simulation32(1): 402-405.

陈翔翔, 许爱华, 许彬, 等, 2018.2000—2012年江西省三类区域性大雾时空分布及影响因素特征[J].气象与环境学报34(3): 37-47.

Chen X X Xu A H Xu B, et al, 2018.Characteristics of spatiotemporal distribution and influence elements of three kinds of regional heavy fog in Jiangxi province from 2000 to 2012[J].Journal of Meteorology and Environment34(3): 37-47.

方楠, 谢国权, 阮小建, 等, 2022.长短期记忆神经网络(LSTM)模型在低能见度预报中的应用[J].气象与环境学报38(5): 34-41.

Fang N Xie G Q Ruan X J, et al, 2022.Application of long short-term memory neural network (LSTM) model in low visibility forecast[J].Journal of Meteorology and Environment38(5): 34-41.

冯汉中, 陈永义, 成永勤, 等, 2006.双流机场低能见度天气预报方法研究[J].应用气象学报17(1): 6.DOI: 10.11898/1001-7313.20060114.Feng H Z

Chen Y Y Cheng Y Q, et al, 2006.A study on the forecast method of the low visibility weather of Shuangliu Airport[J].Journal of Applied Meteorological Science17(1): 6.DOI: 10.11898/1001-7313.20060114 .

冯蕾, 田华, 2014.国内外雾预报技术研究进展[J].南京信息工程大学学报(自然科学版)6(1): 74-81.DOI: 10.13878/j.cnki.jnuist.2014.01.011.Feng L

Tian H2014.Progress in fog prediction[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition)6(1): 74-81.DOI: 10.13878/j.cnki.jnuist.2014.01.011 .

贺倩, 汪明, 刘凯, 2022.基于机器学习的气温要素空间插值[J].高原气象41(3): 733-748.DOI: 10.7522/j.issn.1000-0534.2021.000007.He Q

Wang M Liu K2022.Spatial interpolation of air temperature based on machine learning[J].Plateau Meteorology41(3): 733-748.DOI: 10.7522/j.issn.1000-0534.2021.000007 .

黄威, 牛若芸, 2017.基于集合预报和支持向量机的中期强降雨集成预报试验[J].气象43(9): 7.DOI: 10.7519/j.issn.1000-0526.2017.09.008.Huang W , Niu R Y, 2017.The medium-term multi-model integration forecast experimentation for heavy rain based on Support Vector Machine[J].Meteorological Monthly, 43(9): 7.DOI: 10.7519/j.issn.1000-0526.2017.09.008 .

姜红, 何清, 曾晓青, 等, 2021.基于随机森林和卷积神经网络的FY-4A号卫星沙尘监测研究[J].高原气象40(3): 680-689.DOI: 10.7522/j.issn.1000-0534.2020.00060.Jiang H

He Q Zeng X Q, et al, 2021.Sand and dust monitoring using FY-4A satellite data based on the random forests and convolutional netural networks[J].Plateau Meteorology40(3): 680-689.DOI: 10.7522/j.issn.1000-0534.2020.00060 .

李才媛, 韦惠红, 邓红, 2008.SVM方法在武汉市大雾预警预报中的应用[J].暴雨灾害27(3): 74-77.DOI: 10.3969/j.issn.1004-9045.2008.03.012.Li C Y

Wei H H Deng H2008.Application of SVM method in warning and forecasting of heavy fog in Wuhan city[J].Torrential Rain and Disasters27(3): 74-77.DOI: 10.3969/j.issn.1004-9045.2008.03.012 .

李沛, 王式功, 尚可政, 等, 2012.基于神经网络逐级分类建模的北京地区能见度预报[J].兰州大学学报(自然科学版)48(3): 52-57.DOI: 10.3969/j.issn.0455-2059.2012.03.009.Li P

Wang S G Shang K Z, et al, 2012.Visibility forecast in Beijing through artificial neural network based on hierarchical classification method[J].Journal of Lanzhou University(Natural Sciences)48(3): 52-57.DOI: 10.3969/j.issn.0455-2059.2012.03.009 .

李浙华, 肖安, 郑丽君, 2024.基于高分辨率数值预报和深度学习的地面气温预报研究[J].高原气象43(2): 464-477.

Li Z H Xiao A Zheng L J2024.Research on surface temperature prediction based on high-resolution numerical prediction products and deep learning[J].Plateau Meteorology43(2): 464-477.DOI: 10.7522/j.issn.1000-0534.2023.00073 .

刘季秋, 汪梦笛, 华科旭, 等, 2023.2000-2019年浦东机场能见度特征分析[J].中国民航飞行学院学报34(3): 18-23.

Liu J Q Wang M D Hua K X, et al, 2023.Analysis of visibility characteristics from 2000 to 2019 in Pudong airport[J].Journal of Civil Aviation Flight University of China34(3): 18-23.

刘新伟, 蒋盈沙, 黄武斌, 等, 2021.基于雷达产品和随机森林算法的冰雹天气分类识别及预报[J].高原气象40(4): 898-908.

Liu W X Jiang Y S Huang W B, et al, 2021.Classified identification and nowcast of hail weather based on radar products and random forest algorithm[J].Plateau Meteorology40(4): 898-908.

陆冰鉴, 周鹏, 王兴, 等, 2022.基于相关性分析和数据均衡的能见度分层预测模型[J].计算机应用与软件39(8): 181-186.

Lu B J Zhou P Wang X, et al, 2022.Visibility hierarchical forecast model based on relevance analysis and data[J].Computer Applications and Software39(8): 181-186.

马楚焱, 祖建, 付清盼, 等, 2015.基于遗传神经网络模型的空气能见度预测[J].环境工程学报9(4): 1905-1910.

Ma C Y Zu J Fu Q P, et al, 2015.Air visibility forecast based on genetic neural network model[J].Chinese Journal of Environmental Engineering9(4): 1905-1910.

时玮域, 2020.基于机器学习方法的雾天气预测研究[D].沈阳:沈阳工业大学.DOI: 10.27322/d.cnki.gsgyu.2020.000426.Shi W Y, 2020.Research on fog weather forecast based on machine learning method[D].Shenyang: Shenyang University of Technology.DOI: 10. 27322/d.cnki.gsgyu.2020.000426 .

苏靖晰, 2020.低能见度条件下的航班延误及恢复预测方法研究[D].广汉: 中国民用航空飞行学院.DOI: 10.27722/d.cnki.gzgmh. 2020.000011.Su J X, 2020.Research on flight delay and recovery forecast methods in low visibility conditions[D].Guanghan: Civil Aviation Flight University of China.

孙康慧, 肖安, 夏侯杰, 2024.基于 LightGBM 机器学习算法的江西气温短期预报模型研究[J].高原气象43(6): 1520-1535.

Sun K H Xiao A Xia H J2024.Study on short term temperature forecast model in Jiangxi province based on LightGBM machine learning algorithm[J].Plateau Meteorology43(6): 1520-1535.DOI: 10.7522/j.issn.1000-0534.2024.00035 .

天池平台, 2020.阿里云天池大赛赛题解析——机器学习篇[M].北京: 电子工业出版社.34-38.Tianchi Platform, 2020.Analysis of Alibaba Cloud Tianchi competition problems: machine learning volume[M].Beijing, China: Publishing House of Electronics Industry.34-38.

王琮, 2022.机器学习视角下的短时强降水和冰雹临近预报方法研究[D].天津: 天津大学.Wang C, 2022.Short-Term intense precipitation and hail nowcasting: a machine learning perspective[D].Tianjin: Tianjin University.

王坤, 蒋宁, 李敏, 等, 2020.基于SMOTE算法和逻辑回归模型算法的江苏短时强降水潜势预报[J].科学技术与工程20(28): 11447-11454.

Wang K Jiang N Li M, et al, 2020.The potential forecast for short-term heavy precipitation in Jiangsu province based on SMOTE and logistic regression combination algorithm[J].Science Technology and Engineering20(28): 11447-11454.

王勇, 2019.基于多源数据和XGBoost算法的上海市能见度预测模型研究[D].上海: 华东师范大学.Wang Y, 2019.Research on Shanghai visibility prediction model based on multi-source data and XGBoost algorithm[D].Shanghai: East China Normal University.

吴彬贵, 张建春, 李英华, 等, 2017.天津港秋冬季低能见度数值释用预报研究[J].气象43(7): 863-871.

DOI 10.7519/j.issn.1000-0526.2017.07.010.Wu B G, Zhang J C, Li Y H,et al, 2017.Research on numerical interpretative forecast for low-visibility at Tianjin port in autumn and winter[J].Meteorological Monthly43(7): 863-871.DOI10.7519/j.issn.1000-0526.2017.07.010.

夏侯杰, 肖安, 聂道洋, 2023.基于观测的短时强降水深度学习预报模型[J].高原气象42(4): 1005-1017.DOI: 10.7522/j.issn.1000-0534.2022.00046.Xia H J

Xiao A Nie D Y2023.Observation based deep Learning model for short-duration heavy rain nowcasting[J].Plateau Meteorology42(4): 1005-1017.DOI: 10.7522/j.issn.1000-0534.2022.00046 .

夏侯杰, 肖安, 2024.基于 SHAP 值机器学习的江西暖季暴雨预报因子重要性分析[J].气象与减灾研究47(1): 012-023.

Xia H J Xiao A2024.Importance analysis on warm season rainstorm forecast factors in Jiangxi Province based on machine learning model of Shapely values[J].Meteorology and Disaster Reduction Research47(1): 012-023.

叶宇辰, 陈海山, 朱司光, 等, 2024.基于机器学习的中国夏季降水延伸期预报及土壤湿度的可能贡献[J].高原气象43(1): 184-198.DOI: 10.7522/j.issn.1000-0534.2023.00025.Ye Y C

Chen H S Zhu S G, et al, 2024.Machine learning-based prediction of summer extended range precipitation and possible contribution of soil moisture over China[J].Plateau Meteorology43(1): 184-198.DOI: 10.7522/j.issn.1000-0534.2023.00025 .

岳炼, 2021.基于深度学习的机场低能见度预报技术研究[D].广汉: 中国民用航空飞行学院.DOI: 10.27722/d.cnki.gzgmh. 2021.000145.Yue L, 2021.Research on airport low visibility forecast technology based on deep learning[D].Guanghan: Civil Aviation Flight University of China.DOI: 10.27722/d.cnki.gzgmh.2021.000145 .

余东昌, 赵文芳, 聂凯, 等, 2021.基于LightGBM算法的能见度预测模型[J].计算机应用41(4): 1035-1041.DOI: 10.11772/j.issn.1001-9081.2020081589.Yu D C

Zhao W F Nie K, et al, 2021.Visibility forecast model based on LightGBM algorithm[J].Journal of Computer Applications41(4): 1035-1041.DOI: 10.11772/j.issn.1001-9081.2020081589 .

曾淑玲, 2012.三类航危天气预报技术及业务系统研究[D].兰州: 兰州大学.Zeng S L, 2012.Studies on forecasting technology and operational system for three typical dangerous weather affecting aviation[D].Lanzhou: Lanzhou University.

张庆, 张楠, 陈子煊, 等, 2024.多种机器学习方法在京津冀地区低能见度天气预报中的应用[J].气象科学44(2): 362-374.

Zhang Q Zhang N Chen Z X, et al, 2024, et al.Application of multiple machine learing methods in low-visibility weather forecasting in Beijing-Tianjin-Hebei region[J].Journal of the Meteorological Sciences44 (2): 362-374.

张睿智, 罗瑞虹, 卢志林, 等, 2024.基于机器学习的创伤伤员检伤分类预测模型构建及验证[J].解放军医学院学报45(3): 223-229.

Zhang R Z Luo R H Lu Z L, et al, 2024.Construction and validation of a machine learning-based predictive model for trauma casualty triage[J].Academic Journal of Chinese PLA Medical School45(3): 223-229.DOI: 10.12435/j.issn.2095-5227.2024.003 .

张序, 刘雪涛, 周川, 等, 2014.低能见度条件下飞行事故分析及运行控制研究[J].失效分析与预防9(6): 383-387, 393.

Zhang X Liu X T Zhou C, et al, 2014.Analysis of flight accidents and operational control under low visibility condition[J].Failure Analysis and Prevention9(6): 383-387, 393.

张义朋, 2018.低能见度预测及其与航班准点率相关性研究[D].广汉: 中国民用航空飞行学院.DOI: CNKI: CDMD: 2.1018. 181928.Zhang Y P, 2018.Research on low visibility forecasting and its correlation with flight punctuality[D].Guanghan: Civil Aviation Flight University of China.DOI: CNKI: CDMD: 2.1018.181928 .

赵翠光, 赵声蓉, 林建, 等, 2022.基于区域建模的能见度预报及影响因子分析[J].气象48(6): 773-782.DOI: 10.7519/j.issn.1000-0526.2022.033001.Zhao C G

Zhao S R Lin J, et al, 2022.Visibility forecast and influence factor analysis based on regional modeling[J].Meteorological Monthly48(6): 773-782.DOI: 10.7519/j.issn.1000-0526.2022.033001 .

郑朝霞, 周梅, 季致建, 等, 2016.SVM方法在霾识别和能见度预报中的应用[J].气象科技进展6(6): 30-34.

Zheng Z X Zhou M Ji Z J, et al, 2016.Application of SVM method to identification of haze and prediction of visibility[J].Advances in Meteorological Science and Technology6(6): 30-34.

朱国栋, 2022.深度学习在乌鲁木齐机场能见度预测中的应用[J].自然科学10(3): 352-358.

Zhu G D2022.The application of deep learning in urumqi airport visibility forecast[J].Open Journal of Natural Science10(3): 352-358.

朱国梁, 2018.基于MLP神经网络的机场能见度预测模型[J].科技创新与应用, (18): 4.

Zhu G L2018.Airport visibility prediction model based on MLP neural network[J].Technology Innovation and Application, (18): 4.

朱蕾, 朱国栋, 2010.支持向量机方法在机场跑道视程预报中的应用[J].暴雨灾害29(2): 69-73.DOI: 10.3969/j.issn.1004-9045.2010.02.012.Zhu L

Zhu G D2010.SVM application on prediction of runway visual range of airport[J].Torrential Rain and Disasters29(2): 69-73.DOI: 10.3969/ j.issn.1004-9045.2010.02.012 .

文章导航

/