Simulation of Qinghai Lake Water Level Fluctuations Using Machine Learning

  • Jiawen HUANG ,
  • Yinping LONG ,
  • Qimin MA ,
  • Weixin XU ,
  • Yuxia BIAN ,
  • Hui CHEN ,
  • Xiwen TAN ,
  • Suowu LI
Expand
  • Chengdu University of Information Technology,Chengdu 610225,Sichuan,China

Received date: 2025-04-15

  Revised date: 2025-06-27

  Online published: 2025-09-23

Copyright

© Editorial Department of Plateau Meteorology (CC BY-NC-ND)

Abstract

A comprehensive analysis was conducted to examine the processes and impacts of water level variations in Qinghai Lake under changing climatic conditions.The study utilized monthly mean water level data from 1959 to 2017, sourced from the Qinghai Lake Basin, in conjunction with meteorological and climate variables derived from the ERA5 reanalysis dataset developed by the European Centre for Medium-Range Weather Forecasts (ECMWF).Several large-scale atmospheric circulation indices were also incorporated to investigate their influence on lake dynamics.This integrated dataset enabled a systematic assessment of the dominant climatic drivers and facilitated the development of predictive models to simulate future water level changes.To identify the most relevant influencing factors, the Random Forest (RF) algorithm was employed to perform feature selection and importance ranking.This process allowed for an evaluation of the relationship between feature relevance and model performance.Subsequently, a comparative analysis was undertaken using five machine learning models: RF, Support Vector Machine (SVM), Multi-layer Perceptron (MLP), Long Short-Term Memory (LSTM) networks, and Multiple Linear Regression (MLR).The models were trained and validated to simulate monthly water level fluctuations and to assess the influence of model complexity and temporal learning ability on predictive accuracy.The analysis revealed that key drivers of Qinghai Lake water levels include the North Atlantic Oscillation (NAO), Atlantic Multidecadal Oscillation (AMO), Niño 3.4 index, relative humidity at 400 hPa, 450 hPa, and 100 hPa (RH400, RH450, RH100), precipitation, temperature at 1000 hPa (T1000), vertical wind velocity at 1000 hPa (W1000), and longwave radiation (LW).Among the models tested, the LSTM network exhibited superior performance due to its ability to capture complex nonlinear and sequential dependencies in the data.When the ten most significant features were selected, the LSTM model achieved a Pearson correlation coefficient (R) of 0.95, Nash-Sutcliffe Efficiency (NSE) of 0.96, Normalized Root Mean Square Error (NRMSE) of 0.14, and Kling-Gupta Efficiency (KGE) of 0.87.The MLP model demonstrated the second-best performance, while RF and SVM yielded comparable but slightly lower results.MLR performed the worst, reflecting its limitations in modeling nonlinear and temporal relationships.Projections based on the LSTM model indicate that the water level of Qinghai Lake is likely to rise by approximately 2.55 m between 2017 and 2030.This anticipated increase reflects the continuing influence of climate change and underscores the importance of adaptive water resource management strategies in plateau lake regions.The findings offer a reliable methodological framework for modeling and forecasting hydrological changes in alpine lake systems under future climate scenarios.

Cite this article

Jiawen HUANG , Yinping LONG , Qimin MA , Weixin XU , Yuxia BIAN , Hui CHEN , Xiwen TAN , Suowu LI . Simulation of Qinghai Lake Water Level Fluctuations Using Machine Learning[J]. Plateau Meteorology, 2026 , 45(2) : 374 -385 . DOI: 10.7522/j.issn.1000-0534.2025.00078

1 引言

青海湖是中国最大的内陆咸水湖, 位于青藏高原东北缘, 受全球气候变化的影响显著(Yao et al, 2017)。该区域气候变化受大气环流指数的影响较大, 大尺度环流系统为其提供水汽和热量来源(Chen et al, 2014)。其中, 北大西洋涛动(North Atlantic Oscillation, NAO)、 大西洋多年代际振荡(Atlantic Multidecadal Oscillation, AMO)和厄尔尼诺-南方涛动(El Niño-Southern Oscillation, ENSO)等全球海-气相互作用环流, 对青海湖地区的气候产生了巨大的影响(刘屹岷等, 2016)。
早期的研究主要依赖于物理模型和经验公式。常用的水量平衡模型, 忽略了大气环流和区域气候变化对水位的影响, 预测精度受到限制(Lenters et al, 2005)。分布式水文模型(如土壤与水评估工具SWAT和水文模拟程序HSPF)虽能考虑流域内部复杂水文过程, 但在处理大尺度气候因素时仍存在局限性性(Arnold et al, 1998)。统计模型在短期预测中表现良好, 但难以捕捉复杂的物理过程和大气环流对水位的长期影响(Box et al, 1978)。随着数据集规模和计算能力的提升, 机器学习在水文学领域中的应用日益广泛(Mosavi et al, 2018)。传统的机器学习如随机森林(Random Forest, RF)、 支持向量机(Support Vector Machine, SVM)和浅层神经网络, 在水文气候影响建模中已展示了良好的效果(Uddin et al, 2022)。
机器学习在大气和水文数据融合方面取得了一定的成功, 但目前大部分研究仍依赖自回归模型, 即使用过去的观测值作为主要输入变量(Thapa et al, 2020)。相比之下, 较少研究结合大尺度大气环流数据直接来预测湖泊水位, 此方法在气候变化导致历史数据失效时更具应用潜力(Rasouli et al, 2012)。RF、 多元线性回归(Multiple Linear Regression, MLR)和长短期记忆网络(long short-term memory, LSTM)在识别影响伊利湖水位的关键气候驱动因素, 以及处理时间序列数据方面表现优异(Wang and Wang, 2020)。大气环流模式影响斯堪的纳维亚湖泊的冰冻与融化时间, 其指数变化与冰层动态相关, 反映了气候变化对高纬度湖泊生态系统的潜在影响(Blenckner et al, 2004)。这些方法不仅能提高预测的准确性, 还能为理解复杂的气候—水文关系提供新视角。但在实际应用中, 如何结合多种模型的优势并处理数据中的不确定性仍是需要进一步探索的问题。
为此, 结合1959 -2017年的水文和气象数据, 系统分析大气因素对湖泊水位动态变化的影响。通过影响因子识别和模型性能评估, 比较多种机器学习的适用性和表现, 探讨模型复杂性与预测精度的关系, 为理解气候因子对湖泊水位变化的影响提供数据支持。

2 研究区概况与数据来源

2.1 青海湖流域概况

青海湖流域位于青藏高原东北部(97°50′E - 101°20′E, 36°15′N -38°20′N)(图1), 流域总面积约为299661 km2。青海湖坐落在祁连山东南隅, 被大通山与青海南山环抱, 形成了一个封闭的山间内陆盆地。其地形西北高、 东南低, 地貌特征以湖滨平原、 冲积平原、 低山、 中山及冰原台地等为主。流域处于我国东部季风区、 西北干旱区和青藏高原高寒区的交汇处, 具有内陆高原半干旱高寒气候的特点(Ma et al, 2018): 年平均温度在-1.1~3.5 ℃, 日温差大(10~15 ℃), 年降水量为350~400 mm, 其中夏季降水达60%以上, 四季多风且风力强劲, 年均风速为3~5 m·s-1, 太阳辐射强度为6400~7200 MJ·m-2。20世纪中期以来, 全球气候变暖使青海湖流域气温显著升高, 可直观地看出水位变化趋势(图2), 其下降趋势具有明显的持续性, 通常维持在5年左右。水位上升则表现出阶段性特征, 连续上升大多为1~2年。从20世纪80年代起, 水位下降速率逐渐放缓, 到2005年后开始回升。总的来说, 水位经历了快速下降、 减缓下降、 再到显著回升的过程(王梦晓和文莉娟, 2024)。
图1 青海湖流域地理位置

Fig.1 Geographic location of the Qinghai Lake Basin

图2 1959 -2017年青海湖年平均水位过程线

Fig.2 Annual mean water level process line of Qinghai Lake from 1959 to 2017

2.2 数据来源

青海湖水位月均数据源自青海省水文气象部门的长期观测记录, 并结合多种高度计冰云与陆地高程卫星(ICESat/-2)、 冰雪卫星(CryoSat-2)、 杰森系列海洋高度计卫星(Jason-1/2/3)及哨兵三号卫星(Sentinel-3A/3B)对青海湖的水位变化的监测成果。研究显示, 不同高度计的数据在青海湖的监测结果较为一致, 融合后的水位数据均方根误差(Root Mean Square Error, RMSE)为0.204 m, 与地面观测数据的相关系数为0.941 (Ma et al, 2024)。时间跨度为1959年1月至2017年12月。
大气数据来源于高分辨率欧洲中期天气预报中心第五代再分析数据集(ECMWF Reanalysis 5th Generation, ERA5)。该数据集涵盖了从1000 hPa到50 hPa之间的20个气压层, 包含了一系列标准大气变量。表 1概述了用于特征选择的大气变量和地表变量(参见表 2的符号列表)。并选择美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration, NOAA)气候预测中心下载的NAO、 AMO、 太平洋10年涛动(Pacific Decadal Oscillation, PDO)和尼诺3.4区海表温度异常(Niño 3.4)气候指数作为额外的输入变量。
表1 再分析数据的大气和表面变量概述

Table 1 Overview of atmospheric and surface variables from reanalysis data

数据 时间范围 空间分辨率 时间分辨率 气压层 大气变量 地表变量
ERA5 1959 -2017年 0.25°×0.25° 1 h 50~1000 hPa RH, TUVW Cloud, Precip, SLP, SW, t2m, td2m, LW
表2 再分析数据的大气和表面变量的符号列表

Table 2 Symbol list of atmospheric and surface variables derived from reanalysis data

符号 变量名称 符号 变量名称
Cloud 云量 SW 入射短波辐射
td2m 表面以上2 m处的露点温度 T 气温
LW 出射长波辐射 t2m 空气温度2 m以上
Precip 降水 U 东风
RH 相对湿度 V 北风
SLP 平均海平面气压 W 垂直风速

3 研究方法

3.1 数据处理

为了合理划分数据集, 1959 -2001年的数据用于训练, 2002 -2006年作为交叉验证集以防止过拟合, 而2007 -2017年则用于测试。首先使用RF算法进行特征选择, 确定适用于所有机器学习和基准模型的统一输入变量。通过对数据的特征筛选, 提取了前50个对水位变化具有重要性的特征, 按数量划分为五组特征子集(分别为前10、 20、 30、 40、 50个特征), 用于模型性能的逐级比较分析。
在数据预处理中, 针对大气数据采用了去除中位数并除以四分位间距(第25~75个百分位数)的标准化方法。该方法能有效保留数据的异常值信息并降低其对整体数据分布的影响, 生成的标准化数据具有中位数为0、 标准差为1的特性。对于水位数据, 通过减去最小值并除以极差的方法, 将输入与目标数据统一缩放到0~1的区间内, 有效提升模型计算效率, 并保持数据原始分布特征。

3.2 模型构建

基准模型采用MLR, 其描述了因变量和自变量之间的线性关系, 并使用了与现有研究相同的MLR算法(Kadam et al, 2019)。RF由多个回归树组成, 通过集成方式实现非线性数据的预测, 并可提供变量重要性排序(Pedregosa et al, 2012)。SVM通过核函数映射非线性关系, 构建超平面优化模型的拟合效果(Cortes and Vapnik, 1995)。多层感知机(Multi-layer perceptron, MLP) 作为一种前馈神经网络, 通过多层结构与激活函数捕捉复杂非线性关系, 权重通过反向传播算法优化(Singh et al, 2012Ghorbani et al, 2018)。LSTM专门用于处理时间序列数据, 利用遗忘门、 输入门和输出门能有效捕捉长期依赖关系, 数据输入结构需调整为三维格式以适应模型需求(Hochreiter and Schmidhuber, 1997)。
上述每个模型都是针对数据集和任务开发的, 且具有一组独特的超参数和输入, 因此使用相对模型复杂性的概念来评估性能随着复杂性的增加而提高的程度(表3)。图3为该方法的流程图。
表 3 模型特征和复杂性分类概述

Table 3 Overview of model characteristics and complexity classification

模型 模型类型 模型结构 超参数 模型复杂度
MLR 参数 线性 基础(0)
RF 非参数 分段线性集成平均 树的数量、 修剪标准(如最大深度或每个节点或叶子的样本数量) 简单(1)
SVM 非参数 非线性核 Epsilon管、 L2正则化、 容差、 核类型、 C 中等(2)
MLP 非参数 非线性隐藏层 隐藏层数量、 激活函数、 求解器、 L2正则化、 学习率、 迭代次数、 容差 复杂(2)
LSTM 非参数 非线性LSTM单元 LSTM单元数量、 学习率、 批次大小、 优化器、 训练轮数 复杂(3)
图3 特征选择和模型构建的工作流程 xt 为时间步t的输入, ht 为时间步t的隐藏状态, 包含当前和之前时间步的信息, ot 为时间步t的输出, W为前一隐藏状态ht-1 到当前隐藏状态的权重矩阵, U为输入xt 到隐藏状态的权重矩阵, V为隐藏状态ht 到输出ot 的权重矩阵

Fig.3 Workflow of feature selection and model development.At time step txₜ is the input; hₜ is the hidden state, which contains both current and previous information; and oₜ is the output.The weight matrix W connects the previous hidden state hₜ₋₁ to hₜU maps xₜ to hₜ, and V maps hₜ to oₜ

3.3 评估方法

为评估模型性能, 采用四种常用的水文模型评估指标(Hagen et al, 2021): 皮尔逊相关系数(Pearson Correlation Coefficient, R)、 纳什效率系数(Nash-Sutcliffe Efficiency, NSE)、 归一化均方根误差(Normalized Root Mean Square Error, NRMSE)和克林-古普塔效率系数(Kling-Gupta Efficiency, KGE), 具体计算如式(1)~(4)所示。
R = i = 1 n ( Q o b s i ) ( Q r e c i ) i = 1 n ( Q o b s i ) 2 i = 1 n ( Q r e c i ) 2
N R M S E = i = 1 n ( Q r e c i - Q o b s i ) 2 n * 1 Q o b s ¯
N S E = 1 - i = 1 n ( Q r e c i - Q o b s i ) 2 i = 1 n ( Q o b s i - Q o b s ¯ ) 2
K G E = 1 - R 2 - 1 2 + σ Q p r e c σ Q o b s - 1 2 + Q r e c ¯ Q o b s ¯ - 1 2
式中: n表示样本量; Q r e c为预测值; Q o b s为观测值; R ²为决定系数; σ为标准差; 带有上划线的符号表示算术平均值。

4 结果分析

4.1 重要性分析

RF提取了前50个重要性特征变量(表4), 并对这些变量的相对重要性进行了量化分析(图4), 均方误差增加百分比(%IncMSE)是RF算法中评估特征重要性的指标, 公式如(5)所示。
% I n c M S E j = M S E j - M S E 0 M S E 0
式中: MSE 0MSEj 分别表示原始模型和修改模型的均方误差, 其中修改模型中与第j个变量相关联的数据被随机混洗或排除。%IncMSEj 表示当与第j个变量相关联的数据从原始模型中排除或混洗时MSE的变化率。
表4 特征变量的重要性排序

Table 4 Feature importance ranking

排序 变量 排序 变量 排序 变量 排序 变量 排序 变量
1 NAO 11 t2m 21 W150 31 W400 41 RH1000
2 AMO 12 RH350 22 W250 32 V600 42 V150
3 Precip 13 T150 23 U150 33 d2m 43 V200
4 W1000 14 RH200 24 U200 34 V50 44 U450
5 RH400 15 RH250 25 W350 35 U500 45 U250
6 LW 16 W100 26 RH550 36 T100 46 W450
7 T1000 17 RH150 27 V1000 37 W50 47 RH600
8 RH450 18 U1000 28 RH50 38 W500 48 V250
9 Niño3.4 19 SW 29 V500 39 U350 49 V100
10 RH100 20 RH300 30 W300 40 SLP 50 V550
图4 随机森林的%IncMSE

Fig.4 Plots of %IncMSE in the random forest mod

NAO和AMO对青海湖水位变化具有明显相关性, 其%IncMSE值分别达到0.48和0.22, 而Niño 3.4也超过了0.02, 大气环流的远程效应通过调节降水模式和温湿度条件, 进而影响局地的水文过程。其次, 降水量(Precip, 0.05)和气温(T1000, >0.02)对湖泊水位有直接影响。另外, 垂直风速(W1000, >0.02)和长波辐射(LW, >0.02)以及不同层次的相对湿度(RH400、 RH450, >0.02) 对区域水汽输送、 凝结以及降水都有重要作用。

4.2 不同特征数量下的模型预测结果

不同特征数量条件下, 各模型的预测性能有明显差异。当特征数量为前10个时[图5(a)~(e)], 模型性能排序为: LSTM>MLP>RF>SVM>MLR。LSTM的决定系数(Coefficient of Determination, R2)达到0.95, 散点分布高度集中, 预测值与观测值之间具有高度一致性。非线性拟合及时间序列预测能力最强。MLP次之(R 2=0.82), 多层网络结构使其能有效捕捉非线性关系。而RF和SVM的R 2分别为0.72和0.74, 散点分布相对分散, 性能接近但对时间序列特征的动态捕捉能力较弱, MLR表现最弱 (R 2=0.39)。当特征增加到前20个时[图5(f)~(j)], 所有模型性能均有所提升, 其中LSTM的R²降至0.92, 整体表现仍最优。而MLP的R 2从0.82提升到0.90, 接近LSTM的表现。RF和SVM的表现变化不大, 分别为0.70和0.72。MLR的性能提升有限(R 2=0.43)。对于同一模型, 当特征继续增加到前30甚至前50时, 各模型的性能趋于稳定。LSTM在前10个特征时表现最好, 特征增加后表现反而略有下降。相比之下, MLP在特征增加后表现提升明显, 在30个特征时[图5(k)~(o)]达到最佳(R 2≈0.91), 之后趋于平稳。RF和SVM在40个特征时[图5(p)~(t)]分别达到最佳(R²分别为0.83和0.74), 但对特征数量变化不敏感。MLR性能始终较差, 未明显改善。
图5 各个特征下各模型观测值与预测值散点密度

Fig.5 Scatter density plots of observed vs.predicted values for different models under each feature

为验证不同特征数量对模型预测能力的影响并进行比较, 对各模型进行了精度验证(图6)。特征数量为前10个时, 评估结果排序为: LSTM>MLP>RF>SVM>MLR。以最优模型LSTM为例, 其 R N R M S E N S E K G E值分别为0.93、 0.14、 0.93和0.87, 明显优于其他模型。相比之下, MLP表现次之, RF和SVM的性能较为接近, MLR的性能最差。特征数量增加到前20个时, LSTM的评估值分别为0.91、 0.18、 0.92和0.83, 相比特征数量为10个时的性能提升幅度有限。LSTM的NRMSENSEKGE指标在特征数量增加时变化较小, 表现出较高的鲁棒性。当特征数量为前30个或前50个时, LSTM和MLP的性能基本达到稳定, RF和SVM的性能提升幅度较小且变化较大, MLR的表现仍较差, 与前述结果一致。
图6 不同特征数量下各模型的测试集表现 (a) R, (b) NRMSE, (c) NSE, (d) KGE

Fig.6 Test set performance of models with different numbers of features.(a) R, (b) NRMSE, (c) NSE, (d) KGE

5 讨论

5.1 青海湖水位变化的气候与局地因素的相互作用

与以往研究不同, 本文利用RF的特征重要性评估方法进行自动化特征提取, 极少有研究使用机器学习识别出的重要特征进行水位变化模拟(Liu and Fedorov, 2019)。与较简单的统计方法(逐步回归或主成分分析)相比, RF能在处理大气环流与湖泊水位变化的复杂关系时提供更多信息, 充分保留数据中的交叉相关性和自相关性, 通过不同的时间窗口聚合变量, 确保模型在捕捉季节性变化和短期动态方面的能力(Zhang et al, 2020)。
研究发现, NAO、 AMO和NINO3.4是影响青海湖水位变化的重要气候指数, 通过改变区域的大气环流模式, 影响湖泊水位的变化。NAO影响欧亚大陆冬季的降水和温度模式, 调控青海湖水位。NAO处于正相位时, 副热带西风急流显著增强并东移至青藏高原区域, 增加副热带湿润气流的输入, 促进降水的增加, 还伴随显著增强的风速变化, 导致湖泊表面的湍流增强, 加快湖泊的表面蒸散发速率。不过, 伴随湿润大气条件下的云量增加, 湖面太阳辐射减少, 在整体上有利于湖泊水位的维持甚至上升(Yao et al, 2017马丽娟, 2008)。AMO变化与青藏高原夏季水汽输送紧密相关。AMO正位相时通过影响大气Rossby波列和环流模式, 增加青藏高原的水汽输送(Liu and Fedorov, 2019), 与此同时, 使高原地区处于相对稳定、 风速较弱的条件下, 减弱湖面蒸散发速率, 湿润条件与增加的云量进一步抑制热力蒸散发, 综合促进水位上升(苏东生等, 2018)。Niño 3.4作为ENSO的重要指标, 通过调节东亚季风系统影响青海湖水位, 厄尔尼诺事件期间, 东亚季风减弱使青藏高原水汽输送减少, 常面临降水偏少的干旱局面, 且风速的变化会降低地表空气扰动, 虽有利于降低湖面的蒸散发速率, 但持续的晴朗少云天气增加湖面的太阳辐射输入, 导致蒸散发总体增强, 造成水位下降(Yao et al, 2012)。
除了大尺度的气候因子外, 局地气象因素对青海湖水位变化亦有重要影响。降水直接决定了水位的涨落, 尤其是夏秋季降水量与水位呈显著正相关(袁云等, 2012)。降水的时空分布受到区域风速、 水汽输送路径和云量变化的共同影响。风速增强可促进大气水汽从周围区域向青海湖流域的输送, 并通过对流作用增强降水潜力。水位变化与气温升高密切相关。气温的升高加剧了湖面和土壤的蒸散发作用, 这种蒸散发效应一方面对湖泊水量构成损耗, 另一方面又增加局地对流活动, 强化了局地降水形成的过程, 对水位的影响具有双向性。同时, 气温升高加速了冰川和积雪的融化, 为湖泊提供了额外的水量输入(Zhang et al, 2020)。其中, T1000在青海湖水位变化中具有较高的重要性, 2 m高度气温(Temperature at 2 Meters, t2m)的影响相对较弱。T1000更为综合地反映大尺度大气环流特征与低层大气的热量输送, 而t2m更多地受到局地地表热量与季节性变化的调控(Pitman and Perkins, 2009)。同时, 青藏高原独特的高海拔地形条件增强了垂直风速(W1000)对水汽垂直输送的敏感性, 从而调节局地水汽凝结与对流降水形成的过程(Kim and Lee, 2015)。LW是地表与大气之间能量交换的重要形式。由于青海湖地处高海拔、 低纬度地区, 太阳辐射随太阳高度角的变化特征显著, LW可持续影响蒸发量和云量形成, 对湖泊水位产生间接影响(Su et al, 2018)。最后, 大气层的RH不仅是衡量大气中水汽含量的重要指标, 更与云量形成、 降水发生及水汽输送的效率密切相关。尤其是RH400和RH150等湿度变量, 高空相对湿度的增加通常对应着局地云量增加, 降低了湖泊水面蒸发损失, 并为降水过程创造更为有利的条件(Yu et al, 2011)。总体而言, 局地气象和大尺度气候变量的相互作用共同塑造了青海湖水位的变化模式。

5.2 不同复杂度模型的性能评估

近年来, 机器学习在水文领域的应用日益广泛, 但针对青藏高原内陆湖泊水位预测的系统研究, 尤其是对不同复杂度模型的比较分析仍较为有限。结果表明, 通过识别重要性变量能较准确地预测青海湖水位变化, 尤其是在使用复杂模型时表现尤为显著。
简单的线性模型MLR假设数据为线性关系(Cannon and Whitfield, 2002), 在选取变量时对特征的依赖性极高, 预测精度易受到特征变量的显著影响。如果缺少某一重要特征变量, 模型精度会明显降低, 有着较低的稳定性(Smith et al, 2022)。难以捕捉气候系统与湖泊水位变化之间的复杂非线性关系, 因此其性能最差。随着复杂度的提高, RF和SVM在一定程度上减弱了对单个变量的依赖, 但仍受到变量变化的影响。RF因其模型结构的特性, 能通过变量的重要性排序直观地展示每个变量对预测精度的贡献程度。这也意味着若某一关键变量被移除, 预测误差会显著增加, 模型精度波动较大。也是因为这一特性, 其常被用于进行特征变量相对重要性的评估与排序。而SVM通过该方法提升了对非线性数据的处理能力, 但在处理复杂高维数据时表现不足, 因而其表现不及RF(Pedregosa et al, 2012)。随着模型复杂度进一步提高, MLP和LSTM表现优异。LSTM能够捕捉时间依赖性和非线性动态变化(Nash and Sutcliffe, 1970), 其门控机制有效缓解了长时间序列数据中常见的梯度消失问题, 能高效地捕捉变量之间的时间依赖关系和长期动态特征, 即使某些单个变量被剔除, 模型内部还存在与关键变量相关联的信息, LSTM仍可以从数据中挖掘出隐藏的动态特征。这意味着增加或减少单个变量对LSTM的预测精度影响较小, 模型表现平稳。简单来说, 只要模型中包含了必要的关键影响因素, 其余变量的增减并不会显著影响LSTM的整体预测性能。因此在大规模数据集和复杂关系的建模中表现出更加优异的稳定性和鲁棒性。相比之下, MLP作为一种前馈神经网络(Jain and Gupta, 2023), 虽缺乏时间序列模拟能力, 但通过多层网络结构和非线性激活函数能捕捉较复杂的非线性关系, 表现仅次于LSTM。
基于上述分析, 筛选出性能最优的LSTM预测未来青海湖水位的年均变化趋势(图7)。在2017 - 2030年, 随着青藏高原区域暖湿趋势的延续, 湖泊水位预计稳中有升, 2017年的水位将从3194.93 m上升到2030年的3197.48 m, 预计水位将上升2.55 m左右, 与其他数值模式的预测结果接近(Hou et al, 2023)。伴随降水增加、 冰雪消融及多年冻土退化等多因素共同驱动, 水位上升趋势可能进一步强化, 累积升高幅度达到数米。未来趋势的不确定性仍存在, 极端气候事件如持续干旱等可能导致趋势放缓甚至逆转, 且气候模式预测的内在不确定性、 蒸发反馈机制及冰冻圈退化速率等因素也增加了预测难度。因此, 未来青海湖水位的变化趋势总体表现为上升, 但同时需关注极端气候事件和不确定性的影响, 加强长期监测与情景分析, 以有效支持青海湖流域生态保护、 水资源管理及气候变化适应性决策。
图7 2017 -2030年水位的预测趋势(单位: m)

Fig.7 The predictive trend of water level of Lake Qinghai (2017 -2030).Unit: m

五种模型从简单线性模型到复杂非线性模型的多种类型, 代表了不同复杂度的机器学习方法。LSTM在水位模拟方面表现优异, RF凭借决策树结构能提供特征重要性分析, 但在解释模型内部工作机制时还存在一定的难度。随着机器学习技术的不断发展, XGBoost、 LightGBM和深度强化学习(Deep Reinforcement Learning, DRL)等在处理大规模数据和复杂非线性关系方面具有一定的优势。XGBoost在特征选择和模型稳定性方面表现突出, 其高效的树结构和正则化方法能在复杂问题中表现出良好的泛化能力(Chen and Guestrin, 2016)。DRL也作为一种前景广阔的模型, 适用于动态变化问题、 水位变化的实时预测和调控(Buechel and Knoll, 2018)。然而在数据量较少的情况下, 这些模型(XGBoost、 LightGBM、 DRL)的引入能否为水位变化预测提供更多的选择和优化空间, 如何在数据稀缺条件下平衡模型复杂度与泛化能力, 进一步提高模型的预测精度和稳定性还有待探讨。

6 结论

本文基于机器学习技术识别了青海湖水位变化的关键驱动因素, 并系统分析了不同复杂度机器学习的预测能力:
(1) 大气环流指数(NAO、 AMO和Niño 3.4)等大尺度气候变量通过调节区域气候影响青海湖水位变化。同时, 降水、 T1000、 W1000、 LW以及不同层次的相对湿度(RH400、 RH450、 RH100)等局地因子通过影响水文循环过程调控水位变化。大尺度气候因子与局地气候变量之间的复杂交互作用, 共同塑造了青海湖水位的变化模式。
(2) 多种机器学习综合量化指标与模型稳定性对比显示, 最复杂的LSTM在捕捉时间序列中的非线性特征方面表现最佳, 在所有特征数量条件下均展现出明显更高的预测精度(R最高达到0.9566, NRMSE最低至0.15左右, NSEKGE均接近0.9), MLP表现次之, 其预测性能虽略低于LSTM, 在非线性特征提取方面优于RF与SVM。RF与SVM预测精度相对稳定, 但对关键变量的依赖性较高。特别是RF, 在关键变量缺失时精度显著降低, 这也使其特别适合用于变量相对重要性的排序分析, 但预测精度远不及LSTM稳定。MLR体现出极强的变量敏感性和较低的鲁棒性。因此, 实际应用中可优先选用LSTM模型, 并结合上述关键特征变量以实现较高精度预测, 同时有效降低计算复杂度。
(3) 预测结果表明, 2017 -2030年青海湖水位将会上升2.55 m, 水位的上升在短期内有助于青海湖的保护, 但如果持续快速扩张, 可能引发一系列生态环境问题。建议相关部门加强对生态因素的监测, 持续推进生态综合治理工程, 确保青海湖流域生态环境的可持续发展。
Arnold J G Srinivasan R Muttiah R S, et al, 1998.Large area hydrologic modeling and assessment part I: model development 1[J].Journal of the American Water Resources Association34(1): 73-89.

Blenckner T Järvinen M Weyhenmeyer G A2004.Atmospheric circulation and its impact on ice phenology in Scandinavia[J].Boreal Environment Research, 9: 371-380.

Box G E P Jenkins G M Reinsel G C, et al, 1978.Time series analysis: forecasting and control[J].The Statistician, 27: 265-265.

Buechel M Knoll A2018.Deep reinforcement learning for predictive longitudinal control of automated vehicles[C].2018 21st International Conference on Intelligent Transportation Systems (ITSC): 2391-2397.

Cannon A J Whitfield P H2002.Downscaling recent streamflow conditions in British Columbia, Canada using ensemble neural network models[J].Journal of Hydrology, 259: 136-151.

Chen T Guestrin C2016.XGBoost: a scalable tree boosting system[C].Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

Chen Y Deng H Li B, et al, 2014.Abrupt change of temperature and precipitation extremes in the arid region of Northwest China[J].Quaternary International, 336: 35-43.

Cortes C Vapnik V N1995.Support-vector networks[J].Machine Learning, 20: 273-297.

Ghorbani M A Deo R C Karimi V, et al, 2018.Design and implementation of a hybrid MLP-GSA model with multi-layer perceptron-gravitational search algorithm for monthly lake water level forecasting[J].Stochastic Environmental Research and Risk Assessment, 33: 125-147.

Hagen J S Leblois É Lawrence D, et al, 2021.Identifying major drivers of daily streamflow from large-scale atmospheric circulation with machine learning[J].Journal of Hydrology, 596: 126086.

Hochreiter S Schmidhuber J1997.Long short-term memory[J].Neural Computation, 9: 1735-1780.

Hou P Weidman R P Liu Q, et al, 2023.Recent water-level fluctuations, future trends and their eco-environmental impacts on Lake Qinghai[J].Journal of Environmental Management, 333: 117461.

Jain S K Gupta A K2023.Investigation of multilayer perceptron regression-based models to forecast reference Evapotranspiration (ETo)[J].Research Reports on Computer Science62(1): 104-116.

Kadam A K Wagh V M Muley A A, et al, 2019.Prediction of water quality index using artificial neural network and multiple linear regression modelling approach in Shivganga River basin, India[J].Modeling Earth Systems and Environment, 5: 951-962.

Kim D K Lee D I2015.Atmospheric thickness and vertical structure properties in wintertime precipitation events from microwave radiometer, radiosonde and wind profiler observations[J].Meteorological Applications, 22: 599-609.

Lenters J D Kratz T K Bowser C J2005.Effects of climate variability on lake evaporation: Results from a long-term energy budget study of Sparkling Lake, northern Wisconsin (USA)[J].Journal of Hydrology, 308: 168-195.

Liu W Fedorov A V2019.Global impacts of Arctic sea ice loss mediated by the Atlantic meridional overturning circulation[J].Geophysical Research Letters, 46: 944-952.

Ma S Liao J Jing R, et al, 2024.A dataset of lake level changes in China between 2002 and 2023 using multi-altimeter data[J].Big Earth Data, 8: 166-188.

Ma Y Li X Y Liu L, et al, 2018.Measurements and modeling of the water budget in semiarid high‐altitude Qinghai Lake Basin, northeast Qinghai‐Tibet Plateau[J].Journal of Geophysical Research: Atmospheres, 123: 10857-10871.

Mosavi A Ozturk P Chau K W2018.Flood prediction using machine learning models: literature review[J].Water, 10: 1536.

Nash J E Sutcliffe J V1970.River flow forecasting through conceptual models part I-A discussion of principles[J].Journal of Hydrology, 10: 282-290.

Pedregosa F Varoquaux G Gramfort A, et al, 2012.Scikit-learn: machine learning in python[J].Journal of Machine Learning Research, 12.

Pitman A J Perkins S E2009.Global and regional comparison of daily 2-m and 1000-hPa maximum and minimum temperatures in three global reanalyses[J].Journal of Climate, 22: 4667-4681.

Rasouli K Hsieh W W Cannon A J2012.Daily streamflow forecasting by machine learning methods with weather and climate inputs[J].Journal of Hydrology, 414: 284-293.

Singh A P Imtiyaz M Isaac R K, et al, 2012.Comparison of soil and water assessment tool (SWAT) and multilayer perceptron (MLP) artificial neural network for predicting sediment yield in the Nagwa agricultural watershed in Jharkhand, India[J].Agricultural Water Management, 104: 113-120.

Smith C Guennewig B Muller S, et al, 2022.Robust subtractive stability measures for fast and exhaustive feature importance ranking and selection in generalised linear models[J].Australian & New Zealand Journal of Statistics64(3): 339-355.

Su D Hu X J Wen L, et al, 2018.Numerical study on the response of the largest lake in China to climate change[J].Hydrology and Earth System Sciences23(4): 2093-2109

Thapa S Zhao Z Li B, et al, 2020.Snowmelt-driven streamflow prediction using machine learning techniques (LSTM, NARX, GPR, and SVR)[J].Water, 12: 1734.

Uddin M J Li Y Sattar M A, et al, 2022.Climatic water balance forecasting with machine learning and deep learning models over Bangladesh[J].International Journal of Climatology, 42: 10083-10106.

Wang Q Wang S2020.Machine learning-based water level prediction in Lake Erie[J].Water12(10): 2654.

Yao T Piao S Shen M, et al, 2017.Chained impacts on modern environment of interaction between westerlies and indian monsoon on Tibetan Plateau[J].Bulletin of Chinese Academy of Sciences, 32: 976-984.

Yao T Thompson L Yang W, et al, 2012.Different glacier status with atmospheric circulations in Tibetan Plateau and surroundings[J].Nature Climate Change, 2: 663-667.

Yu S Liu J Xu J, et al, 2011.Evaporation and energy balance estimates over a large inland lake in the Tibet-Himalaya[J].Environmental Earth Sciences, 64: 1169-1176.

Zhang G Yao T-d Xie H, et al, 2020.Response of Tibetan Plateau lakes to climate change: Trends, patterns, and mechanisms[J].Earth-Science Reviews, 208: 103269.

刘屹岷, 刘伯奇, 任荣彩, 等, 2016.当前重大厄尔尼诺事件对我国春夏气候的影响[J].中国科学院院刊31(4): 241-250.

Liu Y M Liu B Q Ren R C, et al, 2016, Current super El Niño event and its impacts on climate in China in spring and summer[J].Bulletin of Chinese Academy of Sciences31(4): 241-250.

马丽娟, 2008.近50年青藏高原积雪的时空变化特征及其与大气环流因子的关系[D].北京; 中国科学院研究生院.Ma L J, 2008.Temporal and spatial variation of snow cover in Qinghai-Tibet Plateau in recent 50 years and its relationship with atmospheric circulation factors[D].Beijing: Graduate School of Chinese Academy of Sciences.

苏东生, 胡秀清, 文莉娟, 等, 2018.青海湖热力状况对气候变化响应的数值研究.高原气象[J], 37(2): 394-405.DOI: 10.7522/j.issn.1000-0534.2017.00069.Su D S

Hu X Q Wen L J, et al, 2018.Simulation of the response of Qinghai Lake thermal conditions to climate change[J].Plateau Meteorology37(2): 394-405.DOI: 10.7522/j.issn.1000-0534.2017.00069 .

王梦晓, 文莉娟, 2024.青海湖水位演变及其影响因子分析[J].高原气象43(3): 561-569.DOI: 10.7522/j.issn.1000-0534.2023.00092.Wang M X

Wen L J2024.Study on water level evolution of Qinghai Lake and its influencing factors[J].Plateau Meteorology43(3): 561-569.DOI: 10.7522/j.issn.1000-0534.2023.00092 .

袁云, 李栋梁, 安迪, 2012.青海湖水位变化对青藏高原气候变化的响应[J].高原气象31(1): 57-64.

Yuan Y Li D L An D2012.Response of water level in Qinghai Lake to climate change in the Qinghai-Xizang Plateau[J].Plateau Meteorology31(1): 57-64.

Outlines

/