Independent Quality Control of High Spatiotemporal Resolution Surface Temperature Observations from Automatic Stations

  • Yiyi SHANG ,
  • Bing ZHANG ,
  • Zhengkun QIN ,
  • Xin LI
Expand
  • 1. School of Atmospheric Sciences,Nanjing University of Information Science & Technology,Nanjing 210044,Jiangsu,China
    2. Joint Center of Data Assimilation for Research and Application,Nanjing University of Information Science & Technology,Nanjing 210044,Jiangsu,China
    3. Nanjing Joint Institute for Atmospheric Sciences / Key Laboratory of Transportation Meteorology of China Meteorological Administration,Nanjing 210041,Jiangsu,China

Received date: 2023-08-10

  Revised date: 2023-12-26

  Online published: 2023-12-26

Abstract

The construction of automatic meteorological observation stations in China has been continuously improved.Currently, more than 60, 000 automatic meteorological observation stations have been built, providing abundant information of surface meteorological variables for weather and climate research.However, the practical application of ground automatic station data has always been constrained by high uncertainty in the quality of observation data.Strict quality control is a prerequisite for the effective application of automatic station data, but the high spatiotemporal resolution characteristics of automatic station observations bring more difficulties to quality control researches.How to accurately distinguish local small-scale weather information and local variation caused by erroneous data in high-resolution automatic station data has always been a difficult point in the research of quality control methods for spatiotemporal resolution automatic station data.On the basis of analyzing the spatial correlation scale and error characteristics of surface temperature, this study established a quality control method for temperatures from surface automatic station based on EOF (Empirical Orthogonal Function) analysis method, which only relies on observation data.The study conducted quality control experiments using surface automatic station temperature observations from January to May 2022, and compared the differences in surface temperature between the automatic station observation data and the Chinese reanalysis data CRA40 (CMA's global atmospheric Re-Analysis) before and after quality control.The results indicate that the established autonomous quality control method for observation data can effectively identify erroneous observation data, relying solely on the observation data itself, effectively avoiding the impact of background errors on quality control effectiveness.The quality control sub regions determined on the basis of correlation scale analysis further enhance the quality control method's ability to identify small-scale temperature changes in observation data, effectively preserving the reject of temperature extremum data corresponding to extreme events in small areas, the number of quality control modes determined by actual data characteristics can well separate the principal and residual terms of the observed data, significantly improving the accuracy of erroneous extreme value recognition.Further introducing sliding detection methods and overlap rejection standards can also retain as much valuable observation data as possible in areas with steep terrain.The quality control results of 1 month data show that the new quality control method can obviously and stably improve the spatial correlation coefficient between the surface temperature of automatic station data and the corresponding variable of CRA40 (CMA's global atmospheric Reanalysis) reanalysis data, and the average deviation is also reduced.Although the average data rejection rate is only about 8%, the spatial correlation coefficient can reach a maximum increase of about 0.02, which fully proves that proposed quality control method can effectively eliminate erroneous data and improve the spatial continuity of automatic station data.

Cite this article

Yiyi SHANG , Bing ZHANG , Zhengkun QIN , Xin LI . Independent Quality Control of High Spatiotemporal Resolution Surface Temperature Observations from Automatic Stations[J]. Plateau Meteorology, 2024 , 43(4) : 967 -981 . DOI: 10.7522/j.issn.1000-0534.2023.00105

1 引言

中国已经实现了地面气象观测的全面自动化。为了更好地适应复杂多变的地面温度特征, 目前全国已建成约6.5万个自动气象观测站, 形成了巨大且密集的地面气象观测网络。很多研究也证明了自动站观测资料同化对高分辨率区域数值预报的改进效果(张鑫宇等, 2023), 但是由于自动站分布密集、 地形差异大、 数据实时性强等特殊性, 地面自动站资料的应用研究一直受到资料质量不稳定的影响, 而且研究表明自动站资料质量问题比人工常规站更为复杂(陶士伟和徐枝芳, 2007)。
气象资料的质量控制主要依据气象变量的变化规律判断资料的正确性。根据固定站点气象变量的变化存在时间连续性和相对稳定变化范围的特征, 熊安元等(2003)任芝花等(2015)都在中国气象局质量控制业务系统中加入了极值检查和时间一致性检查步骤, Meek and Hatfield(1994)张颖超等(2017)则尝试综合利用气象要素的物理限制、 相互关系以及时间一致性对单站数据质量进行检查。为了更好地考虑气象变量时间变化的非线性特征, 叶小岭等(2014)还引入了新的基因表达式编程对资料进行逐站质量控制。针对某些极端天气系统, 周青等(2015)还探讨了特殊天气条件下的资料质量控制方法。除单站资料质控研究外, 根据大气变量的空间变化连续性, 多站协同质控也得到了很多科学家的重视。统计分析中的空间回归法(Hubbard and You, 2005)、 反距离权重法(Barnes, 1964傅娜等, 2014)、 内插法(Dodson and Marks, 1997)等被相继引入协同质控研究中。差值稳定原理、 不同层次大气变量之间的物理规律也成为判断地面观测资料正确性的重要基础(尹嫦姣等, 2010王海军和刘莹, 2012张齐东和熊雄, 2017)。另外针对资料同化研究和业务的需要, 气象学家还研发了基于模式背景场进行质控, 即当观测资料与模式背景场温度的差值超过给定的阈值, 即判定资料不可用, 这样可以有效避免由于与背景场偏离太大的观测资料影响整体同化效果。(Ruggiero et al, 1996Guo et al, 2002徐枝芳等, 2007王丹等, 2022)。
虽然自动气象站资料质控方法有了一定的研究, 但是已有的研究多是针对时空分辨率较粗的地面观测资料, 因此应用的气象变量变化规律多是符合大尺度天气系统的物理规律。随着地面自动站建站密度的快速增加, 高密度自动站资料能够识别更多地面盛行的小尺度天气信息, 如何避免小尺度天气系统对地面站资料质控的影响, 是建立适用于高时空分辨率地面自动资料质控方法的关键问题。
经验正交函数(Empirical Orthogonal Function, EOF)分解方法提供了分离天气系统和扰动变化的有效方法。Qin et al(2010)通过对比观测和背景场EOF分析结果, 发现错误观测信息主要出现在时空连续性较小的高阶模态中, 并提出了一种能够避免天气系统影响的EOF质控方法。王轶等(2013)利用EOF质控方法对地面2 m温度资料进行质控并与传统的背景场检查(Observation-Minus-Background, OMB)质控方法进行了对比, 证明了EOF质控方法可以更好地避免天气系统对地面资料质控效果的影响。赵虹等(2015a2015b)邵宇行等(2022)也对该方法进行了更多的推广应用。
但是已有EOF质控方法的研究多是面向资料同化研究的需要, 依据观测资料和再分析资料的差值来判别错误资料。对于高时空分辨率的地面自动站资料, 更容易出现因再分析资料准确性不足而剔除正确观测资料, 因此有必要建立独立于再分析资料的质控方法。另外如何充分利用自动站高密度特点, 准确识别陡峭地形和极端天气导致的地面温度空间不连续特征, 还需要进一步研究。
本研究针对自动站资料的高时空分辨率特点, 尝试仅依赖观测资料进行质控, 在对自动站资料的空间相关尺度和概率分布特征系统分析基础上, 相对客观地选择质量控制区域范围和相关阈值, 同时建立了合理的强梯度区温度资料的处理方法, 最终建立能够适用于高时空分辨率的地面自动站温度资料的质控方法。研究结果可以为“精密监测”背景下的全国自动站网观测质控研究提供参考。

2 资料来源及数据预处理

2.1 资料介绍

图1给出了自动站站点的空间分布特征, 这里选择的研究区域为75°E -135°E, 15°N -55°N, 在选择区域中共有近6.5万个站点, 除了青藏高原的西北部地区和部分南疆地区外, 全国都有站点分布, 我国中东部地区的站点分布尤为密集, 站点距离最小可以达到1 km左右, 所有站点均可以提供逐小时的温度观测资料(冯良敏, 2012)。另外, 文中涉及的地图是基于中华人民共和国自然资源部地图技术审查中心标准地图服务系统下载的审图号为GS(2022)1873的中国地图制作, 底图无修改。
图1 全国地面自动观测站点(黑色点)水平空间分布

Fig.1 Spatial distribution of ground automatic observation stations (black dots) in China

2.2 数据的预处理

由于仪器故障和特殊天气的影响, 自动站观测资料不可避免地出现缺测情况。考虑到EOF分析方法对资料完整性的要求, 对观测资料进行了预处理。对于任意站点的缺测资料, 利用背景场资料进行第一次填补。填补后的资料只是用于EOF分析, 并不参加后续的质量控制, 所以不影响质量控制的结果。以7天资料集为例, 填补后就生成了如下的资料集 T k , n o b s
T k , n o b s , k = 1,2 , , K ; n = 1,2 , , N
式中: k代表观测站; n代表观测时次; K为全国自动站总数, 本研究中 K = 64378 N代表单站的逐小时观测资料总数, 如果选取7天的观测资料进行质控, N即为168。
为了与前人研究结果进行对比, 这里也准备了背景场资料。背景场是由FNL资料驱动的WRF-ARW模式的6 h预报结果。WRF模式的水平分辨率为3 km, 时间分辨率为1 h。为保证背景场和地面观测资料的空间分辨率一致, 采用拉格朗日多项式插值法将格点数据插值到每个站点, 将插值后的背景场资料记为:
T k , n B F , k = 1,2 , , K ; n = 1,2 , , N
拉格朗日插值法的公式表示如下:
P n ( x ) = i = 1 n y i j i 1 j n ( x - x j ) ( x i - x j )
式中: P n ( x )代表拉格朗日多项式插值结果; y i代表第 i个数据点的函数值; x是要估算的横坐标值; x i代表第 i个数据点的横坐标值; x j代表其他数据点的横坐标值。
前人研究表明, 模式地形高度与实际测站高度差异是导致背景场地面温度差异的重要因素(徐枝芳等, 2007), 因此根据背景场资料高度和观测站点高度, 以干空气温度的垂直递减率为标准, 对背景场温度进行高度订正, 具体订正公式表述如下:
T ' k , n B F = T k , n B F + 0.65 × ( H K B F - H K O B S ) 100 ,   k = 1,2 , K ; n = 1,2 , , N
式中: H表示地形高度。

2.3 验证数据

为了检验质量控制结果的正确性, 研究还引入了中国第一代全球大气和陆面再分析产品(CRA40)作为验证资料, CRA40(CMA’s global atmospheric Re-Analysis, CRA40, http: //data.cma.cn/analysis/cra40)是我国自主研制的第一代大气再分析产品(王彩霞等, 2022), 该产品包含了多种不同分辨率的大气变量信息, 这里选用了其中的地面2 m温度资料, 选择的水平分辨率为0.25°×0.25°, 时间间隔为3 h。研究中同样利用多项式插值方法将再分析资料插值到每个站点。为了减小时间插值的误差, 验证研究仅是针对3 h间隔的资料。

3 质量控制方法介绍

3.1 常规质量控制方法

为了避免极端错误资料对质控的影响, 研究首先引入了前人开发的时间一致性检测方法(Xu et al, 2013任芝花等, 2015), 对观测资料进行宽松的常规质量控制。当地面温度的逐小时变温超过15 ℃时, 判定该资料为错误资料。然后利用双权重标准差的方法对单站资料进行时间连续性检查。对于任意一个站点, 按照如下公式计算其双权重平均值 A V E b w和双权重标准偏差 S T D b w
A V E b w = M + n = 1 N ( T n O B S - M ) ( 1 - w n 2 ) 2 n = 1 N ( 1 - w n 2 ) 2
S T D b w = N n = 1 N T n O B S - M 2 1 - w n 2 4 0.5 n = 1 N 1 - w n 2 1 - 5 w n 2
w n = T n O B S - M c × M A D
式中: M为该站点所有时次温度观测资料的中位数; N为观测资料总时间长度, 文中 N = 168 M A D则是观测资料与中位数 M差值的中位数; 1 - w n 2是该站点第 n个时次观测资料的权重值, 其中 c = 7.5; 若 w n > 1.0, 则 w n = 1.0
为了避免常规质控收到小尺度天气扰动的影响, 这里经验性的设定质控阈值为4, 即当观测资料与双权重平均值的差值大于4倍双权重标准差时, 该资料被判定为错误资料。对于常规质控方法剔除的资料, 将利用该站点其他时刻观测信息, 选用三次样条插值进行第二次填补, 同样填补后的资料只用于EOF分析, 并不参加后续的质量控制。

3.2 基于EOF分析的质量控制方法

在宽松式的时间一致性检查后, 进一步考虑空间一致性检查。常规质控方法中, 空间一致性检查方法多是根据观测资料与周边站点温度差异来判断资料的对错。但是具有高密度特征的自动站资料, 能够观测到小尺度天气扰动造成的温度在水平空间的剧烈变化, 尤其是在天气系统边缘, 容易出现温差较大的相邻站点, 从而无法通过相邻站点温差来识别错误资料。图2给出了2022年5月9日14:00(世界时, 下同)的广州地区温度空间分布图。阴影图由站点资料经过Cressman插值后绘制, 插值后的空间分辨率为0.1°。可以看到小尺度天气系统会导致温度出现剧烈变化。自动站资料很好地再现了温度的水平变化特征, 但是在温度梯度较大区域的站点将无法直接根据其余周围站点的差异来判断资料的质量。
图2 2022年5月9日14:00观测温度空间分布(单位: ℃)

Fig.2 Spatial distribution of observed temperature at 14:00 on May 9, 2022.Unit: ℃

EOF分析方法能够有效的分离这种有组织的结构特征。EOF方法可以将三维变量 T分解为多个二维空间模态 V i和对应一维时间系数 T i的乘积之和:
T = i V i T i
利用重构的方法, 可以将三维分析资料 T分解为两个部分, 即前 n个大尺度特征为主的模态重构结果(主项)和小尺度随机变化为主的剩余模态重构结果(余项), 即:
T = i = 1 n V i T i + i = n + 1 V i T i = T E O F 1 - n + T E O F r e s
根据大气温度的时空连续性特点, 主项主要代表了分解区域内温度大范围一致变化的特征, 具有随机性的错误观测信息必然不会出现主项中, 因此只要选择合适的 n参数, 就可以将观测资料中错误信息集中到随机变化为主的余项中, 而且由于错误资料中不包含主项信息, 提取主项的过程使得错误资料对应的余项更容易出现极值。根据余项随机变化为主的特点, 余项的概率分布近似满足正态分布特征, 当某站点余项绝对值显著大于所有站点余项标准差时, 可以判定该站点资料大概率为错误资料。

4 背景场误差对质量控制影响分析

考虑到再分析资料对温度的大尺度空间结构有较好的再现能力, 前人的EOF质量控制研究中通常引入了再分析资料作为背景场, 依据背景场和观测资料的差值判断资料质量(Qin et al, 2010Xu et al, 2013)。图3(a)~(c)给出了2022年1月22日05:00观测温度, 背景场温度, 以及两者差值(观测-背景场)的空间分布图。阴影图由站点资料经过Cressman插值后绘制, 插值后的空间分辨率为0.1°(后续如无特别说明, 阴影图均由同样方式获得。)。在图3中沿岸地区, 观测与背景场有较大的差异, 背景场的温度明显偏低, 最低可以相差3 ℃以上。这种大范围的差异很可能影响质量控制的准确性。
图3 2022年1月22日05:00观测温度(a, 彩色区, 单位: ℃), 背景场温度(b, 彩色区, 单位: ℃)和观测减背景场温度(c, 彩色区, 单位: ℃)空间分布及质量控制结果(d)

图(d)中黑点为未被剔除站点, 叉为剔除站点, 阴影为观测和背景场温度的余项之差(单位: ℃)

Fig.3 Spatial distribution of observed temperature (a, color area, unit: ℃), background temperature (b, color area, unit: ℃), and their differences (observed-background) (c, color area, unit: ℃) at 05:00 on January 22, 2022 and for the quality control result (d).In Fig.3(d), the black points are for reserved observation, the crosses are for the rejected data, and the color area is the residual difference between the observed and the background (unit: ℃)

图3(d)给出了依据两种余项的差值的质控结果, 其中黑色点为保留资料, 叉号为错误资料, 阴影为观测温度和背景场温度的余项之差。可以看到余项的差值在沿岸地区为大片正值区, 内陆地区则是小尺度的正负相间分布。图中剔除资料主要分布在差值较大的沿岸地区, 这也证明背景场误差能够影响质控的结果。
为了避免背景场误差对质控的影响, 就需要建立仅依赖观测资料自身的质量控制方法。由2.2节最后的讨论可知, EOF质控方法能否仅依赖观测资料自身进行质量控制, 关键是在于观测资料的余项是否满足正态分布。图4给出了研究区域观测资料及分别提取1~6个模态后的余项概率分布图。
图4 2022年1月20 -27日30°N-34°N, 114°E-118°E区域自动站温度观测资料(a)和n分别取1~5时余项(b~f)概率分布

(a) 观测资料, (b) 提取第一个模态后的余项, (c) 提取前两个模态后的余项, (d) 提取前三个模态后的余项, (e) 提取前四个模态后的余项, (f) 提取前五个模态后的余项.灰色实线为最接近的正态分布函数曲线

Fig.4 Probability distribution of temperature observations (a) and residuals after first 1~5 EOF modes extracted (b~f) in areas 30°N -34°N, 114°E -118°E during 20 -27 January, 2022.(a) temperature observations, (b) residuals after first EOF mode, (c) residuals after 1~2 EOF modes, (d) residuals after 1~3 EOF modes, (e) residuals after 1~4 EOF modes, (f) residuals after 1~5 EOF modes.Gray solid curves are for the closest normal distribution function

图4中细实线代表了最接近资料概率分布的正态分布概率密度函数。正态分布函数 f ( x )的计算公式如下:
f ( x ) = 1 σ 2 π e - ( x - μ ) 2 / ( 2 σ 2 )
式中: x为数据序列; μ是序列 x的均值; σ则是序列的标准差。可见影响正态分布函数的参数为平均值 μ和标准差 σ。因此利用观测资料的平均值和标准差, 即可以获得最接近资料分布特征的正态分布函数。从图4中可以看出, 观测资料自身的概率分布特征有明显的相对平均值左右不对称现象, 而余项的概率分布特征则是能够更好地满足随机分布的特点, 随着 n的增加, 余项逐渐呈对称分布。余项的随机分布特征意味着余项不会包含大范围一致变化的天气系统信息, 即余项变化不会受到天气系统的影响, 从而可以简单地通过 3 σ的统计规律判别错误资料。因此在后续的质控研究中, 将仅依赖观测资料进行质量控制。

5 EOF质量控制方法模态阈值

从上述分析可以明确余项能够更好地满足正态分布特征, 但是实际应用中依然面临如何合理确定模态阈值 n的难题。单点分析试验可以为研究提供经验性的阈值。通过对观测资料的人工识别, 这里从观测资料中选取不同时空位置的7个正确资料和7个错误资料, 图5(a)给出了其中一个错误资料的空间位置, 图中数值为观测温度, 阴影为地形高度, 可以看出温度为0.3 ℃的站点可以确定为错误资料。
图5 2022年1月27日08:00观测温度空间分布(a, 数值, 单位: ℃)及14个不同站点在提取第一个模态至提取前八个模态时的观测余差(b)

图(a)中红色数字为人工识别的错误站点, 阴影为地形高度(单位: m); 图(b)中红色为错误站点, 分别位于(117.29°E, 34.32°N); (117.58°E, 34.24°N); (117.11°E, 34.15°N); (113.77°E, 28.48°N); (116.43°E, 33.78°N); (117.29°E, 34.32°N); (117.58°E, 34.24°N); 蓝色为保留站点, 分别位于(117.82°E, 31.02°N); (117.97°E, 34.87°N); (117.4°E, 33.25°N); (116.36°E, 33.24°N); (116.12°E, 33.02°N); (116.56°E, 34.97°N); (116.64°E, 34.96°N)

Fig.5 Spatial distribution of observed temperature at 08:00 on January 27, 2022 (a, the number, unit: ℃) and the residuals of 14 selected stations when different mode extracted (b).The red station in Fig.5(a) represent manually identified erroneous stations, and the shadows represent terrain height (in meters); in Fig.5(b), the red indicates incorrect stations located at (117.29°E, 34.32°N); (117.58°E, 34.24°N); (117.11°E, 34.15°N); (113.77°E, 28.48°N); (116.43°E, 33.78°N); (117.29°E, 34.32°N); (117.58°E, 34.24°N); Blue represents reserved sites located at (117.82°E, 31.02°N); (117.97°E, 34.87°N); (117.4°E, 33.25°N); (116.36°E, 33.24°N); (116.12°E, 33.02°N); (116.56°E, 34.97°N); (116.64°E, 34.96°N)

图5(b)给出了选取的14个站点的温度余项随阈值 n的变化曲线, 其中红色为错误站点, 蓝色为正确站点。对于错误的站点, 在 n小于5时, 随着阈值 n的增加, 余项逐渐增大, 但是 n = 5时, 余项会出现突然减小现象。对于正确的资料, 余项并未出现突然变化的现象, 均表现为随着 n的增加而逐渐减小。这就表明对于目前时空分辨率的地面温度观测资料而言, 前4个模态可以很好地重构正确的观测资料, 而错误资料的重构温度与观测温度差异也最为明显, 所以研究中经验性地将模态阈值 n设定为4。
为了明确模态阈值 n对质量控制的影响, 这里分别给出了 n = 4 n = 6邵宇行等, 2022)的实际质控结果进行对比。图6给出了两种质控在2022年1月21日23:00的检测结果, 其中红色为 n = 6时未剔除而 n = 4时剔除的观测资料。在图6中蓝色圆圈标注的站点, 温度分别是1.5和0.7 ℃, 明显低于周边地区, 且站点地形高度并没有明显的差异, 因此可以判断为错误资料。这与图5中的分析结果一致, 当模态阈值 n大于4, 就出现了错误信号被过度提取到主项的现象, 从而影响质控效果。
图6 2022年1月21日23:00观测温度的空间分布(数字, 单位: ℃)

红色数字为仅n=4的质量控制方法识别的错误站点(单位: ℃); 阴影为地形高度(单位: m)

Fig.6 Spatial distribution of observed temperature (the number, unit: ℃) at 23:00 on January 21, 2022.The red numbers are wrong data only detected by n=4 quality control (unit ℃), shading represents terrain elevation (unit: m)

6 自动站资料空间特征尺度对EOF质量控制方法的影响

图7给出了在2022年1月24日17:00全国自动站资料的空间分布图。其中红色点为EOF质控方法识别的错误资料, 灰色为保留资料。可以看到错误资料出现了异常资料聚集的情况, 这明显不符合错误资料出现概率的随机性特点。
图7 2022年1月24日17:00观测站点空间分布

红色为错误站点, 灰色为正确站点

Fig.7 Spatial distribution of observation stations at 17:00 on January 24, 2022.The red points are for wrong data identified by the quality control, and the gray points indicate the correct station

为了明确质控识别的错误资料聚集现象的成因, 图8给出了图7中蓝框区域的EOF分析结果。从图8(b)中可以看出, 余项在36.5°N附近出现了明显的低值中心, 这也表明图7中出现的异常资料聚集现象可能是由于EOF方法未能很好地识别该区域的局地温度变化中心, 而导致整个低温中心的资料被错误地剔除。
图8 2022年1月24日17:00图7中蓝框覆盖范围观测温度的主项重构场(a)和余项(b)空间分布(单位: ℃)

Fig.8 Spatial distribution of reconstructed (a) and residual term (b) in the area marked by the blue rectangle in Fig.7 at 17:00 on January 24, 2022.Unit: ℃

如何有效提取高分辨率资料小尺度天气系统导致的温度变化正是自动站质控方法研究的关键问题。Pearson(1901)指出EOF能分辨的特征空间尺度与其分析资料覆盖的空间范围成正比, 所以缩小EOF分析区域是保证EOF方法能够有效提取小尺度天气系统信息的最直接方法。为了相对客观地确定质控中EOF分析范围, 就需要明确自动站观测温度能分辨的天气系统空间尺度特征。相关系数随距离的变化可以很好地代表自动站温度的空间尺度特征(邹晓蕾, 2009), 所以研究利用2020年1月1 -7日自动站资料计算了不同站点地面温度序列之间的Pearson相关系数, 具体的计算公式如下:
ρ = c o v ( X , Y ) s t d ( X ) · s t d ( Y )
不同距离的站点温度相关性不可避免受到天气条件的影响, 为了获得稳定的资料可分辨的空间变化尺度, 这里给出了不同站点距离对应的最大相关系数曲线图(图9)。从图9中可以看出, 站点间最大相关系数整体表现为随距离增加而减小的现象, 这是由大气温度的空间连续性决定的。但是相关系数最先在200~300 km出现了相对稳定的特征, 量值维持在0.94左右, 这就意味着温度资料中存在较为稳定的相应尺度的空间结构, 因此研究将质控方法的应用区域设定在2°×2°的区域。
图9 地面温度站点间最大相关系数随站点距离的变化曲线

Fig.9 Maximum correlation coefficient of temperature varying with the distance between any two ground stations

图7中蓝色框为中心, 这里利用蓝框覆盖的2°×2°范围内的观测资料进行EOF分析。图10给出了提取前4个EOF模态后的观测资料主项和余项的空间分布图。从图10中可以看出空间范围对EOF分析提取的主项信息有显著的影响。与图8(b)不同, 在2°×2°的小区域中, 温度变化普遍在±0.5 ℃左右, 与该区域的其他站点余项相比, 图8(b)中36.5°N附近的强低值中心消失, 该位置余项量值与其他区域基本相近, 这就表明利用2°×2°区域进行EOF分析, 可以很好地识别自动站资料中的小尺度温度变化信息。
图10 2022年1月24日17:00在2°范围EOF分析确定的主项(a)和余项(b)空间分布(单位: ℃)

Fig.10 Spatial distribution of reconstructed (a) and residual (b) terms of temperature identified by EOF analysis in the 2° domain at 17:00 on January 24, 2022.Unit: ℃

图11给出了2022年1月24日17:00在2°范围质控方法的错误资料识别情况, 同样是红色为离群站点, 灰色为保留站点。可以看到图7中蓝色框区位置不存在剔除资料聚集现象, 能够更好地满足观测误差随机性的假设。
图11 2022年1月24日17:00在2°×2°范围的质量控制方法剔除站点空间分布

红色为错误站点, 灰色为正确站点

Fig.11 Spatial distribution of observation stations in the 2° domain at 17:00 on January 24, 2022.The red points are for wrong data identified by the quality control, and the gray points indicate the correct station

7 温度强梯度对质量控制的影响

虽然小区域质控能够改进质控的效果, 但是质控结果也容易受到区域位置的影响。高时空分辨率温度资料能够很好在观测温度随陡峭地形和高影响天气边缘的温度突变现象。当温度剧烈变化的区域位于质控区域的边缘, 由于缺少足够的信息来提取强温度梯度的空间结构, 容易导致温度强梯度区的正确资料被识别为错误资料。
分区滑动质量控制方法可以很好地弥补这种不足。实际质量控制中, 通过以固定步长移动小区域, 从而可以对资料进行重复检测, 综合重复检测的结果可以更好地识别错误资料。本研究中选择以1°间隔分别在纬向和经向移动2°×2°的质量控制区域, 因此每个观测资料最多可能被检测4次。
图12给出了2022年1月25日17:00部分区域的温度空间分布图。其中叉号代表了错误资料的位置。在研究区域的东南部出现了由地形高度导致的强温度梯度。图12中分别给出了2次判定异常和3次判定异常的结果。可以看出2次异常方法在强梯度区域出现了4个错误资料, 而3次异常的结果中, 可以很好地避免这4个资料被认定为错误资料。而且3次异常的判断标准在其他区域也可以很好地减少错误资料聚集的现象。
图12 2022年1月25日17:00观测温度的空间分布(彩色区, 单位: ℃)

(a) 黑色叉号代表剔除两次以上的检测结果, (b) 黑色叉号代表剔除三次以上的检测结果, 黑色点代表正确资料

Fig.12 Spatial distribution of observed temperature (color area, unit: ℃) in the 2° domain at 17:00 on January 25, 2022.(a) The black cross indicates the result of more than two rejections, (b) The black cross indicates the result of more than three rejections, and the black dot represents the correct information

8 质量控制结果的正确性验证

为了更好地明确基于EOF的质控过程, 综合上述分析结果, 图13给出了EOF质控方法的流程图。质控方法的具体步骤则是描述如下: (1)首先对每个站点观测资料序列, 进行极值检查和3 h变率检查, 极值和3 h变率超过阈值则认定为错误资料; (2)对每个时刻的观测资料, 选取观测资料50 km范围内最接近目标站点的10个站点, 对比目标资料与周边10个站点的平均值之间的差异, 如果大于阈值则认定为错误资料; (3)首先选取73°E -75°E, 15°N -17°N这个2°×2°区域, 对该区域进行EOF分解, 移除前4个模态后, 利用剩余模态重构获得资料余项, 计算余项标准差 d f r e s O B S, 当 | T E O F r e s O B S | 1.5 d f r e s O B S时, 该站点资料质量标识加1; (4)将步骤3中选择的区域以1°间隔沿经向和纬向移动, 每移动一次, 重复步骤3的质量控制过程, 直到中国所有区域被覆盖则停止质量控制; (5)对每个资料的质量标识进行判断, 如果某项资料的质量标识大于等于3, 则判定该资料为错误资料。
图13 EOF质量控制流程图

Fig.13 Flow chart of EOF quality control

图14(a)和(b)为质量控制前后2021年1月20 - 27日地面自动站温度资料的概率分布图, 图14(c)则是给出了剔除资料的概率分布图。对比图14(a)和图14(b)可以看到, 质量控制前后温度的概率分布基本没有改变, 两者的平均值分别为2.47 ℃和2.52 ℃, 标准差则是8.69 ℃和8.50 ℃。相比而言, 质量控制后资料量值在9 ℃左右的站点数量减少最为明显。剔除资料概率分布可以明显看出在-15 ℃和9 ℃左右有两个峰值。但是整体而言, 剔除资料的PDF分布特征与图14(a)相似, 这也侧面证明了剔除资料的随机性。
图14 2022年1月20 -27日原始资料(a), 质量控制后保留资料(b)和质量控制剔除资料(c)的频率分布

Fig.14 Probability density function of source data (a), retained data (b) and excluded data (c) during January 20 -27, 2022

图15还给出了两个典型站点温度的24 h变化曲线。其中空心圈代表正确观测资料, 实心圈则是代表识别的错误资料。从两站的温度曲线可以看出, 剔除时刻的温度相对前后时次表现为异常的不连续性。
图15 2022年1月21日16:00至22日15:00站点A(114.11°E, 37.29°N, 黑线)以及2022年1月24日16:00至25日15:00站点B(113.76°E, 33.6°N, 蓝线)温度随时间变化

红色为质量控制剔除时次

Fig.15 Temperature varying with time for site A (114.11°E, 37.29°N, black curve) on January 21, 2022 and site B (113.76°E, 33.6°N, blue curve) on January 24, 2022.The red dots are for data rejected by the quality control

为了进一步检验质量控制的正确性, 研究还选用了2022年5月1 -30日的独立时间段地面自动站资料进行质控效果检验。研究引入了CRA40再分析资料的地面温度作为验证资料集。图16给出了质量控制前后观测资料和再分析资料的空间相关系数, 同样利用的是pearson相关系数。由于CRA40分析资料的时间间隔为3 h, 所以这里仅给出了对应时刻的空间相关系数。从图16可以看出, 经过质量控制后空间相关系数普遍提高, 最大可以增加0.02左右。统计结果表明平均资料剔除率为8.403%。
图16 2022年5月1 -30日质量控制前后观测资料与CRA资料的空间相关系数随时间变化曲线

黑色是所有观测资料, 红色是仅保留资料, 灰色曲线为剔除率(右边y轴), 空白区代表资料缺测

Fig.16 Spatial correlation coefficient between CRA and all observations (black curve), and between CRA and only data passed the quality control (red curve) from May 1 to May 30, 2022, the gray curve is the rejection rate (y-axis on the right), and blank areas are because data missing

质控对观测资料与再分析资料差值的平均值和标准差都表现出明显的日变化特征(图17), 平均值在06:00表现出最大的正偏差, 一般为我国最高温度出现时间, 而一天中差值标准差则是在00:00和12:00这两个时刻较大, 这可能和再分析资料对温度日变化的再现能力不足有关(Qin et al, 2010)。相比而言, 质控方法对差值的平均值影响较小, 只是对06:00时刻的差值平均值略有减小。但是对差值标准差则有很好的减小作用。质控方法通过剔除8%左右的观测资料, 就可以明显减小差值标准差。由于质量控制仅依赖于观测资料自身, 因此基于CRA40资料的独立资料集的检验可以很好地证明质量控制的有效性。
图17 2022年5月1 -30日质量控制前后观测资料和CRA资料差值的平均值(a)和标准差(b)随时间变化曲线

黑色是剔除前资料, 红色是保留资料, 空白地区代表资料缺测

Fig.17 Mean (a) and standard deviation (b) of temperature between CRA and observations before (black curve) and after (red curves) the quality control during 1 -30 May 2022.Blank areas represent data missing

为了进一步明确质控对观测资料分布特征的影响, 图18给出了2022年5月1 -30日, 质量控制前后观测资料与CRA资料差值的概率密度分布(质控前-质控后)。可以看到, 质量控制后差值概率密度函数在均值处的概率明显增加, 密度函数的峰度系数也从0.91增加到1.06, 这表明质控剔除资料主要分布在概率密度函数两侧的差值大值区。相比而言, 红线在差值负值区概率减小程度更为明显, 即差值位于负大值区的观测资料的剔除量相对较大。
图18 2022年5月1 -30日质量控制前(蓝线)后(红线)观测资料和CRA资料差值的概率密度分布

Fig.18 Probability density distribution of the difference before (blue curve) and after (red curves) the quality control observations and CRA data for the period from 1 to 30 May, 2022

9 结论

我国已经实现了全面观测自动化, 高时空分辨率的自动站资料能够更好地展现地面温度的多尺度变化特征。但是地面自动站资料的应用一直受到自动观测资料质量不稳定性的制约。本文利用2022年1月和5月的地面自动站温度观测资料, 结合常规质量控制方法及EOF质量控制方法, 建立了面向地面自动站资料的质量控制新方法。研究结果表明:
(1) 地面自动站温度观测资料与再分析资料对比结果表明, 大尺度背景场对地面温度小尺度变化特征再现能力有明显不足, 因此地面自动站资料的质量控制应该仅根据自动站观测资料进行质控。
(2) 在常规质量控制基础上, 本研究提出了分区滑动EOF质控方法, 并相对客观地确定了质控的空间范围和模态阈值, 从而使得新建的质控方法能够有效识别错误资料, 并合理地避免天气过程对质控影响。
(3) 实际资料的质控结果表明新质量控制方法能够有效提高地面自动站温度资料的空间连续性, 对观测资料的误差也有明显的减小作用。
但是受到资料获取条件的限制, 本文的研究是依据有限观测资料进行的, 质量控制效果还需要进一步利用更长时间资料进行验证。另外本研究主要着眼于识别错误观测资料, 实际应用中还需要针对研究目的进行适应性调整。

References

null
Barnes S L1964.A technique for maximizing details in numerical weather map analysis[J].Journal of Applied Meteorology3(4): 396-409.DOI: 10.1175/1520-0450(1964)003<0396: ATFMDI>2.0.CO; 2 .
null
Dodson R Marks D1997.Daily air temperature interpolated at high spatial resolution over a large mountainous region[J].Climatic Research8(1): 1-20.DOI: 10.3354/cr008001 .
null
Guo Y R Shin D H Lee J H, et al, 2002.Application of the MM5 3DVAR system for a heavy rain case over the Korean Peninsula[C]//Papers Presented at the Twelfth PSU/NCAR Mesoscale Model Users’ Workshop NCAR, June 24-25, 2002.
null
Hubbard K G You J S2005.Sensitivite analysis of quality assurancc using the spatial regression approach: a case study of the maximum/minimum ais temperature[J].Journal of Atmospheric and Oceanic Technology22(10): 1520-1530.DOI: 10.1080/14786440109462720 .
null
Meek D W Hatfield J L1994.Data quality checking for single station meteorological databases[J].Agricultural and Forest Meteorology69(1/2): 85-109.DOI: 10.1016/0168-1923(94)90083-3 .
null
Pearson K1901.On lines and planes of closest fit to systems of points in space[J].The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science2(11): 559-572.DOI: 10.1080/14786440109462720 .
null
Qin Z K Zou X Li G, et al, 2010.Quality control of surface station temperature data with non-Gaussian observation-minus-background distributions[J].Journal of Geophysical Research115(D16): D16312.DOI: 10.1029/2009JD013695 .
null
Ruggiero F H Sashegyi K D Madala R V, et al, 1996.The use of surface observations in four-dimensional data assimilation using a mesoscale model[J].Monthly Weather Review124(5): 1018-1033.DOI: https: //doi.org/10.1175/1520-0493(1996)124<1018: TUOSOI>2.0.CO; 2 .
null
Xu Z F Wang Y Fan G Z2013.A two-stage quality control method for 2-m temperature observations using Biweight means and a progressive EOF analysis[J].Monthly Weather Review141(2): 798-808.DOI: 10.1175/MWR-D-11-00308.1 .
null
冯良敏, 2012.自动站资料质量控制及其三维变分同化研究[D].南京: 南京信息工程大学.Feng L M, 2012.Study on surface automatic weather station data quality control and its three-dimension variational assimilation[D].Nanjing: Nanjing University of Information Science & Technology.
null
傅娜, 陈葆德, 谭燕, 等, 2014.上海自动站气温资料的空间质量控制与特征分析[J].大气科学学报37(2): 199-207.DOI: 10.3969/j.issn.1674-7097.2014.02.008.Fu N
null
Chen B D Tan Y, et al, 2014.Spatial quality control and characteristic analysis of AWS temperature data in Shanghai[J].Transactions of Atmospheric Sciences37(2): 199-207.DOI: 10.3969/j.issn.1674-7097.2014.02.008 .
null
任芝花, 张志富, 孙超, 等, 2015.全国自动气象站实时观测资料三级质量控制系统研制[J].气象41(10): 1268-1277.DOI: 10.7519/j.issn.1000-0526.2015.10.010.Ren Z H
null
Zhang Z F Sun C, et al, 2015.Development of three-step quality control system of real time observation data from AWS in China[J].Meteorological Monthly41(10): 1268-1277.DOI: 10.7519/j.issn.1000-0526.2015.10.010 .
null
邵宇行, 秦正坤, 李昕, 2022.基于EOF的高时空分辨率自动站温度观测资料质量控制[J].大气科学学报45(4): 603-615.DOI: 10.13878/j.cnki.dqkxxb.202020506001.Shao Y H
null
Qin Z K Li X2022.Quality control based on EOF for surface temperature observations from high temporal-spatial resolution automatic weather stations[J], Transactions of Atmospheric Sciences45(4): 603-615.DOI: 10.13878/j.cnki.dqkxxb.2020056001 .
null
陶士伟, 徐枝芳, 2007.加密自动站资料质量保障体系分析[J].气象386(2): 34-41.DOI: 10.3969/j.issn.1000-0526.2007.02.006.Tao S W
null
Xu Z F2007.Analysis of the quality assurance procedures in intensified automatic surface weather observation system[J].Meteorological Monthly386(2): 34-41.DOI: 10.3969/j.issn.1000-0526.2007.02.006 .
null
王彩霞, 黄安宁, 郑鹏, 等, 2022.中国第一代全球陆面再分析(CRA40/Land)气温和降水产品在中国大陆的适用性评估[J].高原气象41(5): 1325-1334.DOI: 10.7522/j.issn.1000-0534. 2021.00056.Wang C X
null
Huang A N Zheng P, et al, 2022.Applicability evaluation of China’s first generation of global land surface reanalysis(cra40/land)air temperature and precipitation products in China Mainland[J].Plateau Meteorology41(5): 1325-1334.DOI: 10.7522/j.issn.1000-0534.2021.00056 .
null
王丹, 王金成, 田伟红, 2022.面向数值同化应用的L波段秒级探空资料的质量控制方法研究[J].高原气象41(6): 1615-1629.DOI: 10.7522/j.issn.1000-0534.2021.00085.Wang D
null
Wang J C Tian W H2022.Research on a quality control method for l band second-level radiosonde toward assimilation applications[J].Plateau Meteorology41(6): 1615-1629.DOI: 10.7522/j.issn.1000-0534.2021.00085 .
null
王海军, 刘莹, 2012.综合一致性质量控制方法及其在气温中的应用[J].应用气象学报23(1): 69-76.DOI: 10.11898/1001-7313.20120108.Wang H J
null
Liu Y2012.Comprehensive consistency method of data quality controlling with its application to daily temperature[J].Journal of Applied Meteorological Science23(1): 69-76.DOI: 10.11898/1001-7313.20120108 .
null
王轶, 徐枝芳, 范广洲, 2013.基于EOF 2m温度质量控制方法研究[J].高原气象32(2): 2564-2574.DOI: 10.7522/j.issn.1000-0534.2012.00054.Wang Y
null
Xu Z F Fan G Z2013.Study of EOF quality control method of 2m temperature[J].Plateau Meteorology32(2): 2564-2574.DOI: 10.7522/j.issn.1000-0534.2012.00054 .
null
熊安元, 2003.北欧气象观测资料的质量控制[J].气象科技31(5): 314-320.DOI: 10.3969/j.issn.1671-6345.2003.05.013.Xiong A Y , 2003.Quality control of meteorological observational data in Nordic countries[J].Meteorological Science and Technology, 31(5): 314-320.DOI: 10.3969/j.issn.1671-6345.2003. 05.013 .
null
徐枝芳, 龚建东, 王建捷, 等, 2007.复杂地形下地面观测资料同化II.模式地形与观测站地形高度差异代表性误差[J].大气科学(3): 449-458.DOI: 10.3878/j.issn.1006-9895.2007.03.08.Xu Z F
null
Gong J D Wang J J, et al, 2007.A study of assimilation of surface observational data in complex terrain part ii: representative error of the elevation difference between model surface and observation site[J].Chinese Journal of Atmospheric Sciences(3): 449-458.DOI: 10.3878/j.issn.1006-9895.2007.03.08 .
null
叶小岭, 周建华, 熊雄, 2014.一种基于GEP的地面气温观测资料的质量控制方法[J].热带气象学报30(6): 1196-1200.DOI: 10.3969/j.issn.1004-4965.2014.06.021.Ye X L
null
Zhou J H Xiong X2014.A gep-based method for quality control of surface temperature observations[J].Journal of Tropical Meteorology30(6): 1196-1200.DOI: 10.3969/j.issn.1004-4965.2014.06.021 .
null
尹嫦姣, 江志红, 吴息, 等, 2010.空间差值检验方法在地面气象资料质量控制中的应用[J].气候与环境研究15(3): 229-236.DOI: 10.3878/j.issn.1006-9585.2010.03.02.Yin C J
null
Jiang Z H Wu X, et al, 2010.A research on the application of spatial difference method in quality control of surface meteorological data[J].Clamitic and Environmental Research15(3): 229-236.DOI: 10.3878/j.issn.1006-9585.2010.03.02 .
null
张齐东, 熊雄, 2017.空间回归检验方法在地面气象资料质量控制中的应用——以逐时气温资料为例[J].内燃机与配件(10): 152-153.DOI: 10.19475/j.cnki.issn1674-957x.2017.10.082.Zhang Q D , Xiong X, 2017.A research on the application of spatial regression test in quality control of surface meteorological data: a case study of the hourly temperature[J].Internal Combustion Engine & Parts(10): 152-153.DOI: 10.19475/j.cnki.issn1674-957x.2017.10.082 .
null
张鑫宇, 范水勇, 张舒婷, 等, 2023.加密自动站数据在睿图-中亚数值模式中的应用[J].高原气象42(2): 459-471.DOI: 10.7522/j.issn.1000-0534.2021.00083.Zhang X Y
null
Fan S Y Zhang S T, et al, 2023.Application of encrypted automatic weather station data in RMAPS-CA numerical model[J].Plateau Meteorology42(2): 459-471.DOI: 10.7522/j.issn.1000-0534.2021.00083 .
null
张颖超, 姚润进, 熊雄, 等, 2017.PSO-PSR-ELM集成学习算法在地面气温观测资料质量控制中的应用[J].气候与环境研究22(1): 59-70.DOI: 10.3878/j.issn.1006-9585.2016.16013.Zhang Y C
null
Yao R J Xiong X, et al, 2017.Application of PSO-PSR-ELM-based ensemble learning algorithm in quality control of surface temperature observations[J].Climatic and Environmental Research22(1): 59-70.DOI: 10.3878/j.issn.1006-9585.2016.16013 .
null
赵虹, 冯呈呈, 刘寅, 2015a.Rec-EOF质量控制方法在地面观测2 m比湿中的应用[J].气象科学35(5): 638-645.DOI: 10.3969/2014jms.0045.Zhao H , FengC C, LiuY, 2015a.Application of recursive EOF quality control to 2 m specific humidity from ground?based observations[J].Journal of the Meteorological Sciences, 35(5): 638-645.DOI: 10.3969/2014jms.0045 .
null
赵虹, 秦正坤, 王金成, 等 , 2015b.经验正交函数分解质量控制法在地面观测资料变分同化中的个例研究与应用[J].气象学报73(4): 749-765.DOI: 10.11676/qxxb2015.053.Zhao H , QinZ K, WangJ C, et al, 2015b.Case studies and applications of the Empirical Orthogonal Function quality control in variational data assimilation systems for surface observation data[J].Acta Meteorologica Sinica, 73(4): 749-765.DOI: 10. 11676/qxxb2015.053 .
null
周青, 张乐坚, 李峰, 等, 2015.自动站实时数据质量分析及质控算法改进[J].气象科技43(5): 814-822.DOI: 10.3969/j.issn.1671-6345.2015.05.007.Zhou Q
null
Zhang L J Li F, et al, 2015.Quality analysis of real-time aws data and algorithm improvement of quality control[J].Meteorological Science and Technology43(5): 814-822.DOI: 10.3969/j.issn.1671-6345.2015.05.007 .
null
邹晓蕾, 2009.资料同化理论和应用(上册)[M].北京: 气象出版社.Zou X L, 2009.Theory and application of data assimilation (volume 1)[M].Beijing: China Meteorological Press.
Outlines

/