第三章回归分析1ppt

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大气统计方法第三章回归分析•回归分析是用来寻找若干变量之间统计联系关系的一种方法。•利用所找到的统计关系对某一变量作出未来时刻的估计,称为预报值。例如,假如我们要预报某地某一月份的平均气温(习惯上称为预报量)。•为了预报这个对象未来时刻的变化,我们选择预报量前期已发生的多个有关的气象要素或者其它地球物理要素(把它们称为预报因子)。•利用回归分析方法去分析多个预报因子与这个预报量之间的相互关系,建立它们统计关系的方程式,最后利用方程式对未来时刻的平均气温作出预报估计。•回归分析是一种统计模型,它包括线性回归和非线性回归。常用的是线性回归,因为它的模型比较简单,在理论上也比较严谨,在气象中不少气象要素之间可以近似地存在这种关系。因而可以利用这种方法作出比较符合实际的分析与预报。非线性回归则考虑预报量与因子之间的非线性关系。在气象中也有不少应用。1一元线性回归•一元回归处理的是两个变量之间的关系,即一个预报量与一个因子之间的关系。回归的基本思想回归分析的方法回归的操作步骤回归的选项和参数设定应用举例回归的基本思想问题的提出:检测一个非独立变量(dependent,因变量)与一组独立变量(independent,自变量)之间的关系(实验数据的曲线拟合)Y=f(a0,a1,a2…,am;x1,x2,…xm)+error(x1,x2,…xm)independentdependent预报量预报因子回归关系的假定:y=f(c,x)+e,线性或非线性模型参数c的估计:最小二乘法/极大似然法回归效果的检验:TEST置信区间的估计:预报问题/关于e的估计2.回归分析的方法1)散点图(Scatter)XY**********XY**********根据散点图确定拟合的函数形式3.回归的操作步骤ENSO时间演变TimeEvolutions散点图ScatterPlot[例1]要预报北京3月下旬平均最低温度Tm,用环流指标A(3月16—20日500hPa候平均图上沿130ºE,39º一40ºN的高度差)作为预报因子.为考察它们之间的统计关系,选取195l一1970年资料(见表2.1).**为了更清楚表现它们的关系,还可以绘成变化曲线比较图(图2.1)及散布图(图2.2).195019521954195619581960196219641966196819701972141618202224262830323436ATmYearA-20246Tm101520253035-2-101234567Tm/0CATmvsA_ObservedLinearFitofdata_TmUpper95%ConfidenceLimitLower95%ConfidenceLimitY'=7.51-0.23X从上图可见,点子的散布基本上围绕着一条直线。因此,可以认为Tm与A基本上是一种线性关系。min)ˆ(),(210niiiyybbQ0,00bQbQ对总体,假设有:exy10抽取样本容量为n的预报量y与预报因子x的一组样本,预报量对应的估计量与x有如下关系:xbby10ˆ2)系数的求解怎样才能找到一条对所有点的散布情况代表性最好的直线呢?ˆyniniiiniiininiiiyxxbxbyxbnb11120110经整理,得到求解b0,b的标准线性方程组:xy23.05.7^[例]:对表2.1中资料,算出系数为负数,表明二者之间为负相关21221011xxyniniiiSSxxnyxyxnbxbybi2xyxyyyxyxxyxxSSSSbrSSSSS%计算最佳参数Sxx=sum((x-mean(x)).^2);Sxy=sum((x-mean(x)).*(y-mean(y)));b=Lxy/Lxx;b0=mean(y)-b*mean(x);回归问题的方差分析用预报因子x预报y仅是对预报量y的一个估计,毕竟实际的y与估计的值还是有差别的,如何评价这种预报关系的好坏,也即如何衡量所建立的回归方程的优劣呢?ˆeyy误差ˆy•回归问题的方差分析回归平方和U残差平方和Q推导:niiiiiiiniiiiniiyyyyyyyyyyyyyy1221212ˆˆ2ˆˆˆˆ0ˆˆ1niiiiyyyyniiniiiniiyyyyyy121212ˆˆ回归方差的大小,可表明回归模型的优劣XY**********⊕⊕yyiyiyiyˆyˆyyiiiyyˆyyiˆyˆ图解:方差分析相关系数与线性回归拟合效果(解释方差)22ˆ121212121ˆ1ˆyyniiniiniiniiyyssyynyynyyyySU22222222212122121200121222ˆˆxyyxxyyxxxyyxniiniiniiniiniiniiyyrsssssssssbyyxxbyyxbbbxbyyyyss1222ˆxyyyyyrssSU3).回归方程显著性检验(1)就y=0+x+e给出原假设H0(事件):=0(2)构造与原假设H0有关的统计量,该统计量服从已知的F--分布:F(p,n-p-1)分布,(例如:一元情况下p=1,f1=1,f2=n-2)(3)根据样本值计算上述统计量的观测值(4)将计算值与查表得到的理论值进行比较,确定对H0的接受与拒绝回归方程的显著性检验222222ˆ1)2(212121rrnnrrnssnQUFey例如对表2.1的资料所得的回归方程进行检验727.01111221221niiniiniiiyxxyxyyynxxnyxyxnssSr18.20727.01727.0181)2(2222rrnF查附表中的F分布表,在α=0.05、分子自由度为1、分母自由度为18时,Fα=4.41,显然F>Fα,认为回归方程是显著的。直接对相关系数检验,相关系数也是显著的。对一元线性回归来说,回归方程的检验和相关系数检验是一致的。回归系数的显著性检验对回归方程的显著性检验,既可以总体进行,也可以通过对其中的回归系数进行检验。上式表明,回归系数b的波动大小不仅与误差e的方差有关,而且还取决于观测数据中自变量X波动的程度。如果因子取值范围较大,则估计得到的回归系数b的波动就较小,估计就比较精确。回归系数b的方差回归系数的显著性检验遵从自由度为n-2的t分布,式中Q为残差平方和.统计量遵从分子自由度为1,分母自由度为(n-2)的F分布。回归平方和在进行单个因子作用的检验时,常用下式进行:给定x0,则在给定的α下,y0的置信区间为:预报bxby0ˆeyyˆ96.1e1ˆpnQ4)置信区间的估计:估计)ˆ96.1ˆ,ˆ96.1ˆ(00yyclearx=[3225202627242824151624302230243326203235]';%环流指标A(3月16—20日500hPa候平均图上沿130E,39一40N的高度差)y=[0.91.22.22.4-0.52.5-1.106.22.73.2-1.12.51.21.80.62.42.51.2-0.8]';%北京3月下旬平均最低温度Tmplot(x,y,'*')%作散点图ylabel('Tm(北京3月下旬平均最低温度)')%横坐标名xlabel('A(环流指标)')%纵坐标名%建立直线回归方程n=size(x,1)%计算样本容量[p,s]=polyfit(x,y,1);%调用命令polyfit计算回归参数y1=polyval(p,x);%计算回归模型的函数值holdonplot(x,y1)%作回归方程的图形p%显示参数的最小二乘估计结果MATLAB示例%误差估计与决定系数TSS=sum((y-mean(y)).^2)%计算总离差平方和RSS=sum((y1-mean(y)).^2)%计算回归平方和ESS=sum((y-y1).^2)%计算残差平方和R2=RSS/TSS;%计算方差解释率.%回归方程关系显著性的F检验F=(n-2)*RSS/ESS%计算的F统计量F1=finv(0.95,1,n-2)%查F统计量0.05的分位数F2=finv(0.99,1,n-2)%查F统计量0.01的分位数%回归关系显著性的t检验T=p(2)/sqrt(ESS/(n-2))*sqrt(sum((x-mean(x)).^2))%计算T统计量T1=tinv(0.975,n-2)%t统计量0.05的分位数T2=tinv(0.995,n-2)%t统计量0.01的分位数%预测x1=24;%输入自变量,如[-1,0,1]'yc=polyval(p,x1)%计算预测值[Y,Delta]=polyconf(p,x1,s);I1=[Y-Delta,Y+Delta]%置信区间polytool(x,y)%交互功能2多元线性回归一种结果,多个原因Y=f(a0,a1,a2…,am;x1,x2,…xm)+eXY假设:ppxbxbxbby...ˆ22110nnppnnnppppxxxyxxxyxxxy2211022222211021112211101nyyyY21npnnppxxxxxxxxxX212222111211111p10n21min)ˆ(),...,,(2110niiipyybbbQ0,...,0,0,0210pbQbQbQbQ•系数的最小二乘估计nipjijjnixbbyyyQ110122)()ˆ()1(0)(2110pkxbbyxbQnipjijjikk0)(21100nipjijjxbbybQyXXXb'1')(niipjniijjyxbnb1110)()1()(11110pkyxxxbxbniiikpjniikijjniikyXXbX''KeyConcept:复相关系数衡量一个变量(y)与多个变量(x1,x2,x3,…,xp)之间的线性关系程度的统计量yySUR/2212121)ˆ()ˆ()(iniiniiniiyyyyyyyyS回归方程显著性检验对一个回归方程,我们除了要了解如何建立它们,即求出在方程中各个预报因子的回归系数、确定预报因子与预报量之间的关系外,还要进一步分析回归关系中的回归方差贡献,它对预报量的方差比例,即解释方差部分。但是对于由实际资料计算的复相关系数,怎样来评判它们的可靠性呢?例如我们用海温场中的5个因子建立对某地的气温预报方程,用样本容量为n=10来建立回归方程,复相关系数为0.90,另一个用气压场的5个因子,也建立回归方程来预报气温,用的样本容量为n=100,也有相同的复相关系数0.90,哪一个回归方程可信或更可靠一些呢?同样,对于预报气温的回归方程,如果一个方程用8个因子组成,一个方程用10个因子组成,前一个方程复相关系数为0.90,后一个为0.91,那么用哪一个方程更可靠呢?这些问题,既涉及样本容量大小问题,也涉及因子个数问题。回答这些问题需要进行统计的显著性检验,以便确定我们所检验的方程是属于偶然性的结果,还是具有统计显著性,结果都具有统计显著性,还要确定哪一个方程所具有的显著性最高。回

1 / 42
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功