大气统计方法第二章大气统计基础气象资料实测资料模式资料天气和气候分析的根本第一步分析数据的基本特性……进一步气象资料的整理用统计方法作气象要素的分析和预报是依据大量的气象观测资料来进行的。从概率论或统计学的观点来看,某个气象要素及其变化可看成为一个变量(或随机变量),它的全体在概率论中称为总体,而把收集到的该要素的资料称为样本。利用统计学方法对样本进行分析来估计和推测总体的规律性就是本课程主要介绍的内容。气象中单个或多个要素可看成为统计学中单个或多个变量。本章将介绍对它们的资料(样本)进行初步整理的方法。我们要研究的对象是气象要素,比如气温、降水量、气压,它们可以是月平均值、年平均值、也可以是日平均值,这要看我们所要研究的气象问题而定。对于长期预报或短期气候预测,经常分析的是气象要素的月或年资料。对于短期预报则常使用日资料,要作出预报就需要先研究它们随时间变化的规律性。单个变量•我们把单个气象要素记为x,取它某一时间段的资料记录作为样本,样本中包含n个数据,记为•n称为样本容量,每一个资料称为所抽取的一个样品。x1,x2,…,xn•如果取某要素月平均值的n年资料,那么这些数据就是一串随时间变化的序列,我们习惯把它称为时间序列,并记为xt,其中t=1,2,…,n这种表示法在时间序列分析中常用。•对于气温、气压及降水量等气象要素,观测值变化在正负无穷大之间,这种类型要素可看成为连续型随机变量。至于有一些气象要素,例如冰雹、晕、华等天气现象,气象资料中仅记录此现象“有”或“无”,这类无法用连续型变量表示的变量,一随用“1”或“0”二值数字化表征,这类变量可看成为离散型随机变量。至于云量,用数字1~10来分级表示的,也属于这一类型。•当然,变量类型可以互相转化,例如对连续型变量如气温,规定一个临界值T0。凡T≥T0记为“1”,T<T0的记为“0”,那么这时的气温就处理成二值变量,这种做法在模式输出预报技术中经常被采用来作短期天气预报中的定性预报。多个变量气象要素观测是三维空间的,有各种等压面上的要素资料,既有空间,又有时间变化。这时就可以把多个要素在某一段时间收集的资料看作为多个变量的样本,每个变量的样本可看成为一个向量。p个变量n次观测的样本可看成为n维空间中p个向量,每个向量可用行向量(1×n矩阵)表示统计量的数字特征平均值距平,标准差,方差协方差,相关系数峰度系数,偏度系数中心趋势统计量——平均值•平均值(mean)对于包含有个样本的一个变量,即样本平均值为:nx12,,,,,inxxxx12111()nniixxxxxnn变化幅度统计量•统计量中的平均值描述的仅仅是气候变量分布中心在数值上的大小,并没有告诉我们这种变化与正常情况的偏差和变化的波动。变化幅度统计量即表征距离分布中心远近程度的统计量。•变化幅度统计量包括:距平(anomaly)方差(variance)和标准差(standarddeviation)距平是气象上常用的量,它也即通常所说的异常,即对平均值的正常情况的偏差。资料中某一个数值与平均值之差就是距平,例如第i点资料的距平为:气象上经常用距平值代替原样本中资料数值作为研究对象,因为在气象要素的研究中,它们受年变化周期影响很大,各月的平均值不一样。例如12月、1月、2月平均值就各不相同。为使之能在同一水平下进行比较,常使用距平值。用距平值作为变量的资料值,使得各变量的平均值为0,可以带来研究上的方便,也便于计算。有时直接以它作为预报值,可以给人们一个偏高或偏低的直观了解。距平的意义标准差与方差描述样本中资料与平均值差异的平均状况的统计量就是标准差,它衡量资料围绕平均值的平均变化幅度。平常说:“内陆台站气温日变化较沿海地区要大”。这个日变化大小的比较就是用它们的标准差来比较的。某气象要素(变量)x(含n个资料的样本)的标准差计算公式为数据的标准化•原因及优点---不同单位、不同量级数据之间便于比较•计算公式---,为标准差•特点1---通常标准化后的数据为无量纲的数据•特点2---标准化数据的平均值为0,标准差为1•为相关系数的引出作了铺垫zxxxxxxssxs数据的标准化•数据标准化处理是不仅使得数据间便与比较,其核心思想是试图消除数据的“位置”和离散程度对进一步分析所带来的影响;•例如,1月和7月某日温度相对本月长期平均温度的距平相同,但1月和7月数据离散程度,即标准差不同,则距平标准化值能体现出这两月中这种温度变化是否是属于异常事件。•协方差也可以体现两个变量间的关系,其公式为但协方差是一个带有单位的统计量,不便于不同要素间进行联系,因此需要将原数据作标准化处理。得到相关系数为:11cov(,)()()nxyiiixysxxyyn1221/21111()()11()()[()()]niinniiixyzizinniixyiiiixxyyxxyyrxynnssxxyy协方差与相关系数Pearson(“普通”)相关---特点•相关值介于±1之间,即ⅡⅠⅢⅣ•常可以用来表示两个变量中的一个被另一个变量解释的程度,但并不能从物理上解释其中一个变量的变化是由另一个变量所致,可能这两个变量的变化皆由其它物理过程所致。11xyrxyxy2xyr为什么?证明:线性相关的局限性数据I数据IIxyxy0028133426493852511657137691483121591161610720162017Pearson相关既不robustness,也不resistance048121620X0481216YR=0.6105101520X0481216YR=0.88Spearman排序相关系数数据I数据IIx(rank)y(rank)x(rank)y(rank)0(1)0(1)2(1)8(8)1(2)3(2)3(2)4(4)2(3)6(3)4(3)9(9)3(4)8(4)5(4)2(2)5(5)11(5)6(5)5(5)7(6)13(6)7(6)6(6)9(7)14(7)8(7)3(3)12(8)15(8)9(8)1(1)16(9)16(9)10(9)7(7)20(10)16(10)20(10)17(10)•Spearman排序相关很好的体现了数据对之间单调关系的强度;•而Pearson相关则反应了数据对之间线性关系的强度21261(1)niirankDrnn为数据对(x,y)之间序号的差值D1rankr0.018rankr自相关(autocorrelation)•自相关指得是序列与自身的相关•时间自相关意思是序列不同时刻(过去或未来)之间的相关,也称为滞后相关。•通常用Pearson相关来计算自相关。-7.3-6.3-5.5-10.7…-8.2-6.9-10.9-5.8-8.1-7.3-6.3-5.5-10.7…-8.2-6.9-10.9-5.8-8.11998年1月北京日最低温度11111221/212[()()][()()]niiinniiiixxxxrxxxx“-”表示前n-1个数“+”表示后n-1个数自相关--续“-”表示前n-k个数“+”表示后n-k个数1998年1月北京日最低温度时滞相关1221/211[()()][()()]nkiikiknkniiiikxxxxrxxxx01234567Lagk(days)-0.400.40.81.2rk落后交叉协方差与相关系数中心趋势统计量峰度系数(kurtoris)&偏度系数(skewness)二阶中心矩就是上面提到的方差;三阶中心矩是用来描述变量概率密度分布非对称性的,如果其计算值为正值,表明密度分布曲线的峰点在平均值的右方,反之亦然;四阶中心矩用来描述分布曲线的陡度,如果其计算值小,反映观测值与平均值靠近,分布曲线就比较陡,反之,则表明分布曲线平缓。对遵从正态分布的变量而言,对应的偏度和峰度值应为零。因此,可以通过计算某一气象要素的偏度和峰度值,考察它们偏离零的程度,以便确定它们是否遵从正态分布。正态以及偏态分布示意图平均值平均值平均值正态分布正/右偏态分布负/左偏态分布可用于非对称研究,如ENSOasymmetry(Sunetal.2013)正态以及峰度示意图统计量的检验在气象分析与预报中,为了研究气象要素本身或气象要素之间的关系,我们总是选取一定的样本进行统计分析,那么所得到的结果是否具有普遍意义呢?例如,我们为了研究某地夏季某几年的冷害对农业的影响,分析出这几年夏季的天气形势场在该地上游地区某个区域高空有一低槽,高度值特别低。那么我们要问这几年该区域的低值是否是较常年显著地低,会不会是随机抽样的偶然性的结果?回答这些问题就是概率统计中的显著性检验。一般的显著性检验过程是给定一个原假设,寻找与假设有关的统计量及其所遵从的概率分布函数,用具体的一次抽样的样本数据代入统计量,在给定的显著水平下(气象上常取5%)作出对原假设的否定和接受的判定。当然,这种判定也有一定的错误,即所谓第Ⅰ类错误(否定假设时所发生的)和第二类错误(接受假设时所发生的)。这两类错误的概率不等,由于第Ⅰ类错误的概率较小,一般情况下以拒绝假设的结论为好,即犯错误的可能性较小。小概率原理•一个事件如果发生的概率很小的话,那么它在一次试验中是几乎不可能发生的,但在多次重复试验中几乎是必然发生的,数学上称之小概率原理。•统计学中,一般认为等于或小于0.05或0.01的概率为小概率。置信区间置信水平1-α显著水平α统计检验流程1.明确要检验的问题,提出统计假设。2.确定显著性水平α。3.针对研究的问题,选取一个适当的统计量。4.根据观测样本计算有关统计量。5.对给定的α,从统计量分布表查出与α水平相应的数值,即确定出临界值。6.比较统计量计算值与临界值,看其是否落入否定域中,若落入则拒绝原假设。基本统计量的检验•平均值的显著性检验•两组样本平均值差异的检验•方差的显著性检验•变量的分布检验•相关系数的检验平均值的显著性检验平均值的显著性检验在概率统计中一般有大样本检验(统计量近似遵从正态分布)和小样本检验(统计量遵从t分布)。在气象上,由于通常所使用的样本容量不大,一般情况下,大多使用t分布统计量。在气候变化的研究中,常常要研究某些特殊年份有何显著特点。经常使用的方法是将这一特殊年份的气象要素与其它年份的平均值进行比较。两组样本平均值差异的检验方差的显著性检验变量的分布检验相关系数的检验相关系数是衡量两个变量之间关系密切程度的量。这个量的大小是否显著也需要作统计检验。对于总体不相关(即总体相关系数ρ=0)的两个随机变量,由于抽样的缘故,其样本相关系数r不一定等于0,可能出现其它的数值,因而样本相关系数也是一个随机变量。在假设总体相关系数ρ=0成立的条件下,样本相关系数r的概率密度函数为上式正好是t分布的密度函数。于是,就可以用t检验法来检验,即在原假设自由度的估计•简单估计:随机样本数减2,即n-2•实际上气候变量的一个突出特点就是具有红噪声谱,即不同时间的数据之间不是完全独立的(不是随机的)。气候变量某一时刻的状况对后面的状况是有影响的。因此,序列的有效自由度要比n-2要小。这会影响对相关系数信度的估计和假设结论的判断。•很多气候变量有很强的持续性或者很高的自相关,例如海温。因此进行相关系数的显著性检验时,需要首先对时间序列的有效自由度进行估计。•估计有效自由度的方法有很多。红噪声时间序列的自相关系数随落后时间步长减少,自相关系数越大则独立样本数(有效自由度)越小。两种估算方法趋势变化对相关系数的影响•变量带有性质相反的趋势变化,会使这二个变量之间的相关系数减小(正相关的数值减小,负相关被夸大).变量带有性质相同的趋势变化,会使这二个变量之间的相关系数增加(正相关被夸大,负相关数值变小).r=0.001r=-0.33(施能等,2007)无论作气象要素的资料统计量分析,或者作以后陆续介绍的统计方法分析和预报,气象资