EOF分析Bylqouc1.什么是EOF,它的作用是什么。1.1什么是EOF关于EOF要先从主成分分析说起,主成分分析是多元统计分析中重要的一部分,是一种从多个变量化为少数变量的统计方法,利用多个变量之间相互关系构造一些新的变量,这些新的变量不仅能综合反映原来多个变量的信息,而且彼此之间是相互独立的,同时是按方差贡献大小排列的,这种统计处理方法称为主成分分析。主成分分析在气象应用中称为经验正交函数(EOF)分解。1.2EOF的用途对于一个气象要素,我们通常有m个空间点或者台站,有n次观测,这样组成的矩阵中的任意元素就表示了某一空间某一时刻的函数,我们希望能将这样的时空函数分解成空间函数与时间函数两部分的线性组合。根据主成分的性质,主成分是按其方差贡献大小排列的,而且是相互独立的,那么可以用前几个时间函数与对应的空间函数的线性组合,对原始场做出估计和解释,这就是经验正交函数分解的主要目的。2.EOF的数据预处理EOF只是个统计学的方法,本身不带有任何物理意义,更不会揣摩作者的意图,所以在数据导入之前需要对数据进行分析和预处理。以免得到错误的或者不理想的结果。在此处所说的预处理不是指一般EOF程序中自带的距平或者标准化的处理,虽然这确实有一定的区别。总之,在做EOF之前,对数据需要有基本的了解,也要对自己的研究目的十分明确。2.1数据预处理的必要性例如:想利用EOF研究极地海平面气压场的年际变化,数据是六十年的月平均的海平面气压格点资料。首先对手中的资料有基本的判断,月分辨率的资料包含的时间信号的尺度可能有季节内变化、季节变化、年变化、年际变化、年代际变化以及线性趋势。而我们需要的只是其中的年际变化的信号,所以为了排除干扰必须对数据进行滤波。这一步是非常有必要的,因为一般来讲,气温、气压、SST这种受太阳辐射影响巨大的要素都具有很强的季节变化,这样的信号远远强于年际变化。2.2滤波的方法对于滤波的方法,我们熟悉的有很多,最简单的是做年平均,还有滑动平均、带通滤波、谐波滤波、线性去趋势。关于这些方法在此一一介绍。1.年平均只能去掉年以下的信号,更低频的信号无法去除,优点是对年以内的信号去除的十分干净,缺点是会缩短可用的时间序列,只适用较长时间的研究。2.滑动平均有很多种,去除年以下的信号可以选用13点滑动平均,对于年分辨率的数据采用五点滑动平均可以去除年际变化,其优点是较好的保存了时间序列的长度,缺点是对过于强的年以内信号不能彻底去除,影响结果的分析。但是此处需要注意的是,滑动平均不得已的情况下尽量不要多次使用,这样会大大减小时间序列的自由度。3.带通滤波也是常用的方法(本人没用过),其优点是可以选定一定的频率范围,缺点是边界处处理不是很清晰。4.谐波滤波,以傅里叶函数为基函数对时间序列进行逼近,其优点是可以较准确的得到选取的频段信号,缺点是选的基函数有局限性,而且结果和时间序列的长度有关。5.线性去趋势可以去除时间序列的线性趋势信号,但是需要这一线性趋势通过显著性检验。2.3如何合理选定分析对象上面谈到的是滤波的方法,但是如果我们的数据是一些大家不熟悉的数据,我们并不知道它都主要包含何种尺度的信号,也不知道各个主要尺度信号的强弱,那就需要先对时间序列进行分析。对于时间序列的分析,我们可以采用1.谐波滤波,看各个频率的数值大小。2.功率谱分析,得到显著周期。3.小波分析,同样可以得到时间序列的多尺度变化特征。在此,我推荐的方法是结合空间利用方差分析,因为以上的分析我们都是忽略了空间的影响,一种要素的时间变化特征是会随着空间变化的。例如,对中国地区做某一要素的EOF分析,得到的结果不能通过检验(检验的方法,后面再说),这个时候我们就需要考虑是否一些地区的目标信号不强,而另外一些地区目标信号很强,这样的话就只需要分析目标信号很强的地区,即只对特定区域进行EOF分析。结合空间的方差分析,首先需要对要素每一个空间点的时间序列进行滤波,得到各个不同频率的信号(从季节内到线性趋势)。对每个平率的信号求方差,得到了各个频率的方差的空间分布。在分析的过程中我们主要关注空间的大值区,和大值区的数值大小。空间大值区告诉我们该区域某种特定频率的信号很强,为我们选择研究区域。比较各个频率大值区的数值,可以得到各个频率的信号对原始信号的贡献大小,这类似于EOF分析中的方差贡献百分率,虽然得到的结果比较粗糙,但是对于信号的选取目的性更强。千辛万苦,我们通过滤波得到了想要分析的频率范围的数据,又通过方差的空间分布选定了典型的研究区域。可以放心大胆的进行EOF分解了。基于本文的目的在于实用,在此处就不详细说明EOF的数学过程了。***但是有一点需要在这里说明***很多EOF的程序中都包括了数据的简单处理,包括了距平和标准化。这两种方法得到的结论与原始数据得到的结论肯定是不同的。在此做简要说明。一般原始数据的EOF得到的结论中第一模态方差贡献很大,代表了要素的平均状态,取距平后则将平均状态去除;标准化的方法多用于多变量EOF,统一不同变量的量级,但是标准化也会存在一定问题,会使局部区域的显著性丧失。3.EOF的检验EOF的检验方法大致有三种,其检验的角度各不相同。North检验、MonteCarlo检验、合成分析检验。3.1North检验North检验是最简单也是必须要做的检验,其检验的目的是考察各个模态之间是否相互独立,也就是能否称为一个有着独立特征的模态。North检验,是计算特征值误差范围来进行显著性检验。特征值λ的误差范围,n为样本量,当相邻特征值满足时,认为这两个特征值对应的经验正交函数是有价值的信号。3.2合成分析检验合成分析,其目的是检查主模态对原始场的拟合度,选取前几个模态的时间系数大于一倍标准差的时刻做合成分析。3.3MonteCarlo检验MonteCarlo检验是利用大量重复的随机试验来排除虚假的结果。其原理是选取一组与实验数据特征相似(正态分布或者均匀分布、变化范围一致)的随机数,对其进行EOF分解,得到前p个模态的方差贡献。将这样的实验变化随机数组进行1000次,对于得到的每一个模态的方差贡献进行从大到小的排序,取排在第5的数值作为0.005显著性的临界值。假如我们得到的该模态的方差贡献大于这一临界值,那么就说明该模态通过了0.005的显著性检验。三种检验的侧重点不同,检验的结果也可能不同,在实际应用中,应尽量全部使用,然后对检测结果取交集,已达到最严格的检验效果。4.时间系数的分析时间系数可以进行的分析包括敏感性分析,突变分析,周期分析,相关因子分析和回归分析。还是以年际和年代际为例,假设预处理时已经去除了线性趋势和年以内的变化。4.1敏感性分析21)2(enjj1jjjje-1对于EOF进行敏感性试验可以分析影响要素变化的敏感因子。常规的EOF可以进行空间的敏感性分析,即改变空间范围,分析结果的变化。对于多变量的EOF可以去除个别变量从而能考察该变量的影响对哪一个模态影响最大。季节EOF可以改变开始季节来判断年循环的影响。4.2突变分析突变分析用来分析时间序列是否存在突变或转型。常用的方法有滑动t检验和MK检验。但是以上两种方法并不能对所有种类的突变做出很恰当的检验,其能够检验的主要是均值突变,而趋势突变、振幅突变和周期突变是无法检验的。以上类型的检验可以自己设计方法进行检验,例如周期突变可以使用小波分析,振幅突变可以尝试滑动方差分析,趋势突变可以尝试滑动线性回归分析或者累积方差分析。4.3周期分析周期分析,我们得到的某一模态的时间系数可能反映了年际变化,但是这个年际变化可能是多种周期不同的年际变化的组合。对此,我们需要对时间系数进行分析,采用的方法主要有功率谱分析,小波分析。利用以上两种方法可以得到时间系数的主要周期,小波分析还可以进一步得到这种周期的极值年份。4.4相关因子分析通过以上两项的分析,我们掌握了时间系数的一些基本特征,可以根据这些周期特征寻找有相同特征的气象因子(尤其是环流因子)作为相关分析的对象,也可以根据影响要素变化的物理过程找出可能的影响因子,进行简单相关、复相关和偏相关分析,确定可能的影响因子。确定了影响因子之后可以尝试用多元回归分析,探讨这些因子与研究要素之间的可预报性。除了以上提到的分析,还可以根据自己的目的增加分析的内容。5.不同类型的EOF5.1EOF本身的变化对于EOF的介绍很多的参考书籍都将其用于时空分离,也就是用在了空间和时间构成的三维场。但是实际上,我们回归最前面的EOF的出处,可以看出最原本的主成分分析并没有限定要素是时空的函数。这种方法只是通过引入新变量来达到数组降维的效果。所以我们可以在应用中进行多种尝试,只要能在物理上找到合理的解释就没问题。因为,这终究只是一种数学工具。举个例子,我们将一个30年长度月分辨率的时间序列,写成一个30*12的数组,第一维30年,第二维是12个月,这样以30年为我们通常认为的时间,12个月为‘空间’,进行EOF分析,得到的结果可以揭示不同模态下12个月分别在这30年中的变化。除此之外还有很多种用法,在此不再赘述,仅作抛砖引玉。5.2多变量EOF(MV-EOF)EOF分析时,不仅会研究某一要素的时空特征,有时也会研究某现象的时空特征,而这些现象往往不能用单一的要素来表征,这时候就需要用到了多变量的EOF。例如,研究海洋大陆的季风系统时空变化特征,很可能要考虑到850hPa风场、SST、和降水,此时只需要在EOF导入数据的时候将数组空间的维数扩大三倍就可以了,将数据按要素分别存入,运算完之后按照存入的顺序提取三个场,这三个场共用一个时间系数。当然这样做的时候一般也就只分析时间系数的特征了。很多人提到的风场的矢量EOF和王斌先生提出的季节EOF都是多变量EOF的特殊应用。5.3其他类型的EOF许多研究人员根据不同的目的对EOF做出了很多改进。EEOF称为扩展正交经验函数分解,可以研究两组或者多组变量之间的线性关系,或同一组变量间的滞后关系,这也是多变量EOF的一种应用。REOF称为旋转正交经验函数分解,可旋转后的特征向量空间型的中心强度比非旋转特征向量空间型的中心要强,可以有更明确地物理解释,揭示小尺度现象。CEOF称为复经验正交函数分解,能够从要素场的时间变化中,识别空间尺度的波动特征。SVD称为奇异值分解,可以分析两个场之间的相关模态,EOF从本质上讲也是它的一个特例。CoverianceEOF:每个点减去该点序列的平均,去掉地理位置不同造成的差异,该方法适用于研究非地理因素。GradientEOF:某时刻的点减去该时刻全区域的平均,空间差异得以完全保留,利于研究封面、涡旋等梯度大的现象。感谢徐华对本文的帮助与建议LIUQian2013/4/16