2011年数学建模培训统计分析模型与SAS软件张景祥一、统计学分析方法1.1回归分析1.2聚类分析1.3数据分类1.4判别分析1.5主成分分析1.6因子分析1.7残差分析1.8典型相关分析1.9时间序列7月10日(培训主要内容)第一部分回归模型第二部分SAS与Excel数据回归分析模型一元线性回归一元非线性回归多元线性回归多元非线性回归主要应用于变量间相关关系的分析回归这一术语是1886年英国生物学家高尔顿在研究遗传现象时引进的.他发现:虽然高个子的先代会有高个子的后代,但后代的增高并不与先代的增高等量.他称这一现象为“向平常高度的回归”.尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据:y=0.516x+33.73(英寸)分析出儿子的身高y和父亲的身高x大致为如下关系:这意味着,若父亲身高超过父亲平均身高6英寸,那么其儿子的身高大约只超过儿子平均身高3英寸,可见有向平均值返回的趋势.诚然,如今对回归这一概念的理解并不是高尔顿的原意,但这一名词却一直沿用下来,成为统计学中最常用的概念之一.6英寸3英寸在回归分析中,当变量只有两个时,称为一元回归分析;当变量在两个以上时,称为多元回归分析.变量间成线性关系,称线性回归,变量间不具有线性关系,称非线性回归.一元回归多元回归线性非线性在这一讲里,我们主要讨论的是一元线性回归.它是处理两个变量之间关系的最简单的模型.它虽然比较简单,但我们从中可以了解到回归分析的基本思想、方法和应用.设随机变量y与变量x之间存在着某种相关关系,其中x是能够控制或可以精确测量的变量.年龄身高施肥量积雪深度x…y灌溉面积产量血压体重…为了今后研究方便,我们把x当作普通变量,而不把它看作随机变量.对于x的一组不完全相同的值x1,x2,…,xn作独立观察,得到随机变量y相应的观察值y1,y2,…,yn,构成n对数据.用这n对数据可作出一个散点图,直观地描述一下两变量之间的关系.yxo············这里有三幅散点图.yxo··········(1)oyx············(2)yxo····················(3)根据散点图,考虑以下几个问题:(1)两变量之间的关系是否密切,或者说我们能否由x来估计y.(2)两变量之间的关系是呈一条直线还是呈某种曲线.(3)是否存在某个点偏离过大.(4)是否存在其它规律.yxo··········(1)oyx············(2)yxo····················(3)考虑采用线性方程拟合采用非线性方程拟合一元线性回归为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度x与当年灌溉面积y,得到连续10年的数据如下表:年序最大积雪深度x(米)灌溉面积y(公顷)15.1190723.5128737.1269346.2237358.8326067.8300074.5194785.6227398.03113106.42493为了研究这些数据中所蕴含的规律性,我们由10对数据作出散点图.从图看到,数据点大致落在一条直线附近,这告诉我们变量x和y之间大致可看作线性关系.yxo4000300020001000246810···········从图中还看到,这些点又不完全在一条直线上,这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.事实上,还有许多其它因素对y产生影响,如当年的平均气温、当年的降雨量等等,都是影响y取什么值的随机因素.其中a和b是未知常数,称回归系数,ε表示其它随机因素对灌溉面积的影响.0)(D0)(E2σ2未知y=a+bx+ε如果我们只研究x和y的关系,可以假定有如下结构式:实际中常假定ε服从正态分布N(0,σ2),即y=a+bx+ε,ε~N(0,)(1)2为一元线性回归模型.通常称由(1)式,我们不难算得y的数学期望:E(y)=a+bx该式表示当x已知时,可以精确地算出E(y).由于ε是不可控制的随机因素,通常就用E(y)作为y的估计,记作.这样我们得到yˆ称此方程为y关于x的回归方程.(2)xbayˆˆˆ现对模型(1)中的变量x,y进行了n次独立观察,得样本(x1,y1),…,(xn,yn)(3)据(1)式,此样本的构造可由方程y=a+bx+ε,ε~N(0,)(1)2,i=1,2,…,n(4)iiibxay这里是第i次观察时随机误差所取的值,它是不能观察的.i来描述.i=1,2,…,n(5)0)(0)(2iiDE(4)式和(5)式结合,给出了样本(x1,y1),…,(xn,yn)的概率性质.它是对理论模型进行统计分析推断的依据.也常称(4)+(5)为一元线性回归模型.由于各次观察独立,有,i=1,2,…,n(4)iiibxay由于此方程的建立有赖于通过观察或试验积累的数据,所以有时又称其为经验回归方程或经验公式.(6)xbayˆˆˆbˆ回归分析的任务是利用n组独立观察数据(x1,y1),…,(xn,yn)来估计a和b,以估计值和aˆbˆ分别代替(2)式中的a和b,得回归方程那么要问,如何利用n组独立观察数据来估计a和b?1.用最小二乘法估计a,b首先举例说明最小二乘法的思想:niixx12)ˆ(假设为估计某物体的重量,对它进行了n次称量,因称量有误差,故n次称量结果x1,x2,…,xn有差异,现在用数去估计物重,则它与上述n次称量结果的偏差的平方和是:xˆxˆniixx12)ˆ(于是就提出了下面的估计原则:用这种方法作出的估计叫最小二乘估计.最小二乘法认为,一个好的估计,应使这个平方和尽可能地小.xˆ寻找,使上述平方和达到最小,以这个作为物重的估计值,这就是最小二乘法.xˆxˆ现在的情况是,对(x,y)作了n次观察或试验,得到n对数据,我们想找一条直线,尽可能好地拟合这些数据.xbayˆˆˆixyxbxayˆiyˆiiyyˆiy由回归方程,当x取值xi时,应取值a+bxi,而实际观察到的为yi,这样就形成了偏差iyˆi依照最小二乘法的思想,提出目标量QniiibxayQ12)]([(7)它是所有实测值yi与回归值的偏差平方和.iyˆixyxbxayˆiyˆiiyyˆiyixyxbxayˆiyˆiiyyˆiy我们可设法求出a,b的估计值,,使偏差平方和Q达到最小.aˆbˆniiibxayQ12)]([(7)niiibxayQ12)]([(7)我们可设法求出a,b的估计值,,使偏差平方和Q达到最小.aˆbˆ由此得到的回归直线是在所有直线中偏差平方和Q最小的一条.ixyxbxayˆiyˆiiyyˆiyxbayˆˆˆaˆbˆ通常可采用微积分中求极值的办法,求出使Q达到最小的,.niiibxayQ12)]([(7)即解方程:00bQaQxxxyLLbxbyaˆˆˆ得(8)其中niixnx11niiyny11niixxxxL12)(niiixyyyxxL1))((从而得到回归方程xbayˆˆˆ按照上述准则,我们可求出前面例子中灌溉面积y对最大积雪深度x的回归方程是:xy364142ˆ可以看出,最大积雪深度每增加一个单位,灌溉面积平均增加364个单位.可以证明,我们用最小二乘法求出的估计分别是a,b的无偏估计,它们都是y1,y2,…,yn的线性函数,而且在所有y1,y2,…,yn的线性函数中,最小二乘估计的方差最小.baˆ,ˆ求出回归方程,问题尚未结束,由于是从观察得到的回归方程,它会随观察结果的不同改变,并且它只反映了由x的变化引起的y的变化,而没有包含误差项.xbayˆˆˆ(1)回归方程是否有意义?即自变量x的变化是否真的对因变量y有影响?因此,有必要对回归效果作出检验.因此在获得这样的回归方程后,通常要问这样的问题:(2)如果方程真有意义,用它预测y时,预测值与真值的偏差能否估计?(1)回归方程是否有意义?即自变量x的变化是否真的对因变量y有影响?因此,有必要对回归效果作出检验.2.回归方程的显著性检验对任意两个变量的一组观察因此需要考察y与x间是否确有线性相关关系,这就是回归效果的检验问题.都可以用最小二乘法形式上求得y对x的回归方程,如果y与x没有线性相关关系,这种形式的回归方程就没有意义.(xi,yi),i=1,2,…,n我们注意到只反映了x对y的影响,所以回归值就是yi中只受xi影响的那一部分,而则是除去xi的影响后,受其它种种因素影响的部分,故将称为残差.xbayˆˆˆiyˆiiyyˆiiyyˆyxiyixaˆiiyyˆbxayˆyˆyoyxiyixaˆiiyyˆbxayˆyˆyo于是观测值yi可以分解为两部分和,)ˆ(ˆiiiiyyyyiiyyˆiyˆ并且也可分解为两部分.yyi)ˆ()ˆ(iiiiyyyyyy因此,y1,y2,…,yn的总变差为:(9)niiyyS122)(总niniiiiyyyy1122)ˆ()ˆ(可以证明2回S2残S2总S即可以分解为两部分:回归平方和与残差平方和.2回S2残S2总SniiyyS122)ˆ(回niiiyyS122)ˆ(残(10)niiyyS122)(总niiyyS122)ˆ(回niiiyyS122)ˆ(残(10)反映了由于自变量x的变化引起的因变量y的差异,体现了x对y的影响;2回S2残S而反映了种种其它因素对y的影响,这些因素没有反映在自变量中,它们可作为随机因素看待.2回S2残S2总S222残回总SSS2回S2残S可见,/为x的影响部分与随机因素影响部分的相对比值.yxiyixaˆiiyyˆbxayˆyˆyo它的作用和随机因素的作用相当,于是由数据得到的回归方程就没有什么意义.若它不是显著地大,表明我们所选的x,并不是一个重要的因素.2回S2残S可见,/为x的影响部分与随机因素影响部分的相对比值.yxiyixaˆiiyyˆbxayˆyˆyo如果它显著地大,表明x的作用是显著地比随机因素大,这样,方程就有意义.通常我们可假设y和x没有线性相关关系,对回归方程是否有意义进行显著性检验.222)(nSE残(11))(残回222nSSF222残回)(SSn因此用bˆbˆxbayˆˆˆ来检验b的绝对值是否显著大于0(或者说检验回归方程是否有意义).可以证明:的关系式中b=0时,有当~F(1,n-2)(12)22(2)SFSn回残22(),ES回yabx给定显著性水平,通过查F分布分位数表,求出否定域,便可判断回归方程是否有意义.拒绝域为:)2,1(nFF由上面的讨论可知,要问回归方程是否有意义,就是要检验假设H0:b=0;H1:b≠0使用的检验统计量为:~F(1,n-2))(残回222nSSF222残回)(SSn22(2)SFSn回残niixbaxba12)ˆˆˆ(niiyyS122)ˆ(回我们可以用更简单的公式计算回归平方和与残差平方和:2回S2残SxyyyLLSSS222回总残(14)xyxxniiLbLbxxbˆˆ)(ˆ2122(13)现在对例中建立的回归方程进行检验,可计算得:3319592758.9119364ˆ2xyLbS回,33930252总S2残S=3393025-3318355222残回)(SSnF=355.5746703318355)210(对α=0.01,由F表查得=11.26,)8,1(01.0F)8,1(01.0F由于F,故回归方程有意义.当检验认为回归方程确有意义.则可用来进行予测或控制,这也是建立回归方程的重要目的.对给定的x值,由回归方程就可得的值.xbayˆˆˆyˆ3.预测当已知最大积雪深度为9.2米时,就可以预测灌溉