气象统计方法王慧wanghui123nuist.edu南京信息工程大学大气科学学院第一章内容回顾2、中心趋势统计量变化幅度统计量分布形态统计量单要素相关程度统计量多要素中心化处理标准化处理3、资料的整理、审查与订正1、数据资料的表示第二章选择最大信息的预报因子1.概率、条件概率以及预报指标2.天气预报指标的统计检验3.定量数据时的指标4.高相关变量间的相关系数及其检验早在天气图出现之前,民间就已经广泛流传着有关天气的谚语。因为天气与人类的生活是密切相关的。谚语所反映的就是前期的征兆与后期天气的统计关联性。朝霞不出门,暮霞行千里。(《田家五行》论霞)早上太阳在东方,如有红霞,多在天顶或西方,这就是说,天顶或西方有低云出现。(在中高纬)天气变化总是自西而东的,这种低云必定是慢慢向本地接近,可见雨天即将到来;反之,晚上太阳在西方,如有红霞,多在天顶和东方,那末,这种成霞的低云,将继续向东去,离本地渐远,如有雨下,也下不到本地,所以天气是晴朗的。朝霞不出门暮霞行千里•四季东风有雨下,只怕东风刮不大。•天上钩钩云,地上雨淋淋。•大雾不过三,过三阴雨天。降水过程有共同性,也有特殊性,单一预报指标必然管不住所有的降水过程。选择最大信息的预报指标(因子)可以减少天气预报的漏报率和空报率。第一节概率和条件概率以及预报指标一、概率1.事件:自然界中的一切现象。2.频率:衡量事件出现可能性大小的数量指标。n次观测次数中,事件A出现m次,则事件A的频率为:mPAn()3.概率:观测次数n足够大,P(A)稳定接近某个常数,这就是事件A的概率。概率是事件的总体特征(频率的理论值),频率是事件的样本值(概率的估计值)。二、条件概率和天气预报指标1.概念在事件B已经发生的条件下计算事件A的概率,称为事件A在事件B已出现条件下的条件概率,记为P(A/B)。若事件A、B同时出现的概率为P(AB),则有:/PABPABPB()()()条件概率是统计预报的基础。统计天气预报中,往往将A取为所要预报的具体内容,而将B取为事件A以前τ时刻(τ预报时效)的某个前期气象条件。举例:事件A:长江中下游当年6月平均降水小于250mm;事件B:长江中下游当年1月平均降水小于22mm;统计1885-1980年共96年资料得:P(A)=69/96=0.72P(A/B)=13/14=0.93则:若长江中下游地区观测到1月份平均降水小于22mm时,可预报当年6月份降水小于250mm。预报时效为5个月。2.天气预报指标必须满足两个经验性的条件(1)P(A/B)P(A)或者P(A/B)P(A)A、B之间有比较可靠联系(2)P(A/B)----1或P(A/B)----0预报指标有一定准确率3.事件的独立性如果事件B的出现与否不影响事件A出现的概率,则称事件A对于事件B是独立的,满足:P(A)=P(A/B)或者P(AB)=P(A)×P(B)注意:要圆满地回答A和B是否相互独立的问题,应知道计算频率时所用的观测资料的次数,使用统计检验理论。问题:求n次独立试验中,事件A出现m次的概率?第二节天气预报指标的统计检验1.二项分布(1)二分类预报:只预报事件A出现或者不出现(),又称为正反预报。设nPm()A(),1PApPAqpq(),!!()!mmnmnnmnPmCpqnCmnm()80E90E100E110E120E130E140E20N30N40N50N。(2)符合二项分布的三个条件:第一:每次试验只有两个结果;第二:试验条件不变,每次试验均有P(A)=p,;第三:试验的独立性。()PAq2、二项分布在天气预报中的应用(1)计算天气现象出现的概率,特别是小概率事件。mmnmnnPmCpq()2、二项分布在天气预报中的应用(2)天气预报指标的检验用二项分布检验天气预报指标,是检验某一条件概率所指示的事件是属于偶然性还是具有规律性的一种方法。某事件A出现的概率是p,而在条件B时,事件A出现的频率是m/n,则:•当Q值小于0.05或0.01时,事件发生的偶然性极小,指标可用。当Q值大于某上限值时,偶然性过大,指标不可用.(1)nrrnrnrmQCpp当Q值小于0.05或0.01时,A事件在n次试验中出现m次的事件是小概率事件,在一次试验中不可能出现,但在条件B影响下发生了,说明B起的作用。小概率事件:概率很接近于0(即在大量重复试验中出现的频率非常低)的事件。一般多采用0.01~0.05两个值,即事件发生的概率在0.01以下或0.05以下的事件称为小概率事件,这两个值称为小概率标准。“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。这种认识是进行假设检验推断的出发点。需要注意两点:(1)这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;(2)当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。假设检验的基本思想:就是小概率反证法思想。即先提出假设,设H0为一原假设,H1为一与其对立的备择假设(对立假设),构造一个随机事件A,当原假设成立时,随机事件A以很小的概率发生该事件称为小概率事件。一般来说,在一次试验中小概率事件不应发生,若发生了,则否定原假设H0,接受与其对立的备择假设H1。天气预报指标的检验实际上是反面来检验该预报指标的可靠程度,历史拟合的准确率从正面说明该指标的可靠程度。第三节定量数据时的指标•状态要素:可以用条件概率选择预报因子并且用二项分布检验预报因子的可靠程度。•定量数据要素:主要用相关系数选择预报因子或因子集,并用t检验方法检验其可靠性。自然界中各现象间存在普遍的关系。可分为两种:确定性关系:数学上的函数关系非确定性关系:统计上的相关关系相关系数:度量各变量(各要素)间相关程度的量。本节主要内容一.简单相关系数二.相关系数的检验-t检验三.自相关系数四.落后交叉相关系数五.复相关和偏相关系数一、简单相关系数(Pearson相关)•卡尔·皮尔逊(KarlPearson,1857.3.27-1936.4.27),生于伦敦,英国数学家、哲学家,现代统计学的创始人之一。被尊称为统计学之父。•1.概念描述两个变量线性相关的统计量,一般简称为相关系数或者点相关系数,用r表示。它也做为两总体相关系数ρ的估计。•2.表达式12,,,inxxxx12,,,inyyyy设有两个变量x,y,观测值分别为:相关系数的几种表示方式:(1)原始资料:112211111222211()()()()()()niinxyinnxyiinniiniiinniiiixxyysrssxxyyxynxyxnxyny(2)距平序列(均值为0):12211ndidiinndidiiixyrxy(3)标准化序列:标准化后资料均值为0,均方差为1.1111()()nnzizizizziziirxyxxyynn相关系数就是标准化变量的协方差•3.相关系数的校正根据统计学中大样本定理,样本量大于30才有统计意义。当样本量较小时,计算所得相关系数可能会离总体相关系数甚远。这时,可以用计算无偏相关系数加以校正。•4.几点重要理解(1)(2)r的绝对值越大,表示变量之间关系越密切。当r0,表明两变量呈正相关,越接近1.0,正相关越显著;当r0,表明两变量呈负相关,越接近-1.0,负相关越显著;当r=0,则表示两变量相互独立。(3)相关系数的值与样本量n有关,计算出的相关系数是否显著,需要经过显著性检验。二、相关系数的检验-t检验•样本相关是否意味着总体就相关?需相关系数统计检验•正态总体的相关检验实质上是两个变量间或不同时刻间观测数据的独立性检验。就是检验总体相关系数ρ=0的假设是否显著。•在假设ρ=0成立条件下,样本相关系数r检验的统计量符合自由度n-2的t分布。所以,可以用t分布检验法来检验。•1、统计检验的一般流程:(1)明确要检验的问题,提出统计假设;(2)确定信度范围α;(3)针对研究问题,选取一个适当的统计量;(4)根据观测样本计算有关统计量;(5)对给定的α,从表上查对应的数值,即确定出临界值;(6)比较统计量计算值与临界值,判断是否显著。(1)假设ρ=0成立,它服从自由度为n-2的t分布。(2)给定信度范围α(0.05或0.01)(3)计算统计量t:(4)由给定的信度范围α及自由度为n-2,查t分布表,得到临界值tα(5)比较t与tα,否定ρ=0,总体相关。接受ρ=0,总体非相关。tttt221rntr•2、相关系数t检验的步骤:何为“自由度”?在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少。自由度=样本个数-样本数据受约束条件的个数,即df=n-k(df:自由度,n:样本个数,k:约束条件个数)。例如,一组数据,平均数一定,则这组数据有n-1个数据可以自由变化;若一组数据平均数一定,标准差也一定,则有n-2个数据可以自由变化。单侧举例:单侧•3、相关系数表为了检验方便,可以构造不同自由度,不同显著性水平的相关系数检验表。实际应用中,自由度已知,给定信度范围,就可直接查表对相关系数进行显著性检验。trnrt212221ccrntr临界相关系数rc:22nttrcrc表示在给定信度α和样本数n的条件下,相关系数r的临界值。由此可以制备检验相关系数r的临界值表。一般rc随自由度增大而减小。西北地区地面感热计算所用98站分布西北地区东部夏季感热与全国634站同期降水的相关111()1()nxxtttnyytttRxxnRyyn(紫色和深蓝色区域为通过95%信度水平检验的区域,rα=0.396)mmnmnnPmCpq()西北地区东部汛期降水190站分布221212121221221yyyyyrrrrrRr不同时段西北地区东部地表感热与其汛期(5-9月)降水的关系西北地区东部地面感热异常偏强年19821991201920002019异常偏弱年19841985198819922019NoImage-σσ合成分析11()()niiisxxxxn•1、自协方差与自相关系数时间序列xi(i=1,2,···n),其时间间隔τ的自协方差为:三、自相关系数衡量某一气象要素不同时刻之间关系密切程度的量。样本平均值自相关系数是描述某一变量不同时刻之间相关的统计量。将滞后长度为τ的自相关系数记为r(τ)。121()()niiixxxxrnssss()()若τ为正整数,r(τ)称为滞后(落后)自相关系数;若τ为负整数,r(τ)称为超前相关系数。样本标准差相对概念1212自相关系数TheautocorrelationfunctionofthefirstPCofmonthly,year-roundNorthAtlanticSSTanomalies.theblacklineisinstantaneouscorrelations(value=1.0)2019,vol(15):2233-2256•当样本量足够大时,对滞后长度为τ的自相关系数的显著性检验,可通过统计量:•2、自相关系数的检验-u检验()urn进行检验,上式遵循N(0,1)的正态分布。通过检验可以判断气候变量是否具有持续性。也可用t检验信度uα信度uα四、落后交叉相关系数•1、落后交叉协方差与相关系数自协方差与自相关系数是衡量一个变量时间序列前后变化的,如何考虑两个变量不同时刻之间的相关密切关系?----落后交叉协方差与落后交叉相关系数11()()nxyiiisxxyyn11()()nxyiixyixyxysxxyyrnssss相应的落后交叉相关系数为:•2、表达式设xi和yi(i