1第九章方差分析及回归分析(续)2一般地,对一个单因素试验,假设因子有s个水平,n个对象参与了试验。假定对应于因子第j个水平的组中有个试验对象,响应变量数据为jn12,,,1,2,,jjjnjXXXjs,。2~(0,),1,2,,1,2,,ijjijijijjXNinjs单因子方差各独立,分析模型122221122111212122212:,:,:,sssssnnnsANANANXXXXXXXXX通常假定3012112:...:,,...,ssHH不全相等。检验假设111——ssjjjjjnnnn记总平均,其中,1,2,...,jjjAjs——水平的效应1122...0ssnnn此时有12212...0(0,),1,2,,1,2,,模型为:各独立,ijjijijijjssXinnjsnn假设等价于012112:0:,,,ssHH不全为零。4012112012112::,,,:0:,,,由此,对不全相等。(或等价地写为不全为零)ssssHHHH(1)(){(1,)}AESsFSnsWFFsns检验统计量为;在给定水平时,检验拒绝域为AS1AASSsAESSESEESSnsTS方差来源平方和自由度均方F比因素As-1误差n-s总和n-1单因素试验方差分析表5例1设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05)药物x治愈所需天数y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,66这里药物是因子,共有5个水平,这是一个单因子方差分析问题,要检验的假设是“所有药物的效果都没有差别”。0123451125::,,...,HH解:检验假设不全相等。(1)(){(1,)}AESsFSnsWFFsns检验统计量为;在给定水平时,检验拒绝域为721234513145125,6,30,1047,,.30,,.31,.37,...16965.42jnsijjisnnnnnnTXTTTTT方差分析表方差来源平方和自由度均方F比因素A36.466749.11673.90误差58.5000252.3334总和94.9667290.050(4,25)2.76FH。拒绝,认为疗效有显著差异。8•未知参数的估计22ˆˆ1;(2)ˆˆ(3).(4).EjjjjjjSXnsXXX()的估计的估计;的估计;的估计。容易证明,以上估计均为相应参数的无偏估计。220(,)(,)()jkjkjkHNNjk当拒绝时,进一步比较和的差异,可以作的区间估计。211(..),(..)jkjkjkjkEXXDXXnn因为2ˆ..()jkEXXSns且与相互独立。2(..)()(..)()()~()(11)(11)jkjkjkjkEjkEjkXXXXSnstnsnnSnn故2()1..()(11)jkjkEjkXXtnsSnn得的水平为的置信区间9213125321(1,2,3,4,5)0.95jjj例求例中未知参数的点估计,并求,,的置信度为的置信区间。22ˆˆ2.33345.63337.5,5,4.3333,5.1667,6.16671.8667,0.6333,1.3,0.4666,0.5334EjjSXns解:的估计;的估计;的估计分布为:;的估计分布为:0.025(25)2.0595,(11)0.8819EjktSnn查表得1312350.95(1.3504,4.983)(0.6837,4.3163)(3.6497,0.0171),,的置信度为的置信区间分别为:,,131235说明与,与,与的差异都显著。10§3一元线性回归分析•确定性关系:当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:21h=gt2变量与变量之间的关系确定性关系相关关系11例1:人的体重y与身高x之间存在着一定的关系。一般来说,身高越高则体重也越重,但高度相同的人,体重不一定完全相同.例3:消费y和收入x是有关的,一般来说,收入高的人消费也相对比较高。但同样收入的人,消费不会完全相同.例2:人的脚掌的长度x与身高y两者也有一定联系,通常脚掌长的人身高也较高,但同样脚掌长度的人身高并不完全相同.•相关关系:12这种变量之间既有关联但又不存在确定性数值对应的相互关系,称为相关关系。相关关系可以归结为两点:一是变量之间存在着关系;二是这种关系又是非确定的,或者说只存在统计规律性。回归分析——研究相关关系的最基本,应用最广泛的方法。13Y|X|()()YXYxYFyxFyxxYx由于是随机变量,对于的每个确定值,有相应的分布,记其分布函数为。因此如果掌握了随着的取值而变化的规律,也就完全掌握了与之间的关系了。(一)一元线性回归现在,我们需要研究两变量x和Y之间的相关关系。这里,x(自变量)通常是可以控制和可以测量的“普通”变量,Y(响应变量)的值不能根据x的值完全确定,而遵循一定的分布而取值,是随依赖于x的一个随机变量。14Yx()()()()然而这样做,实际中往往很难实现。作为一种近似,往往考察的数学期望(假设存在),其值随的取值而定,它是的函数,将其记为,称为。于是将讨论与相关关系问题转换为讨关于的回归函数论与的关系问题了。YEYxxxYxEYxx当自变量取确定的x时,若随机变量Y的期望E(Y)存在,其值与x有关,记为.回归问题的本质是研究,以此来反映Y与X之间的关系,而不是研究Y与X之间的直接关系,这一点应严加区别。()x()x15在实际问题中,回归函数μ(x)一般是未知的,需要根据试验数据去估计。121122,,...,,(,)1,2,...,,(,),(,),...,(,).对于取定一组不完全相同的值设分别在处对作独立观察得到样本,对应的样本观察值niiinnxxxxxYxYinxyxyxy由此来推断μ(x),这样的问题称为Y关于x的回归问题.1617描述两个定量变量间关系的一个最直观的方法是绘制两变量的散点图。散点图包括横轴和纵轴。横轴(x轴)代表一个变量,纵轴(y轴)代表另一个变量。图中的点表示两个变量的一对观测值。散点图(,)()将每对观察值在直角坐标系中描出它相应的点(称为散点图),可以粗略看出的形式。iixyx1819为了解释散点图,首先要看它的整体轮廓。它的轮廓可以反映出两个变量间关系的方向、线性关系和关系的强弱。散点图的最大优点是它没有丢失任何数据信息并简化了数据,并且易于制作和解释。20正相关、负相关关系:若两个变量的变化趋向相一致,则称两个变量是正相关;若一个变量有向上的趋向,而另一个变量有向下的趋向,则称这两个变量呈负相关。21用散点图可显示两个定量变量间关系的方向、线性关系以及关系的强弱程度。如果散点图中的点都在一条直线的附近,则称变量间呈强线性关系;若点较为分散的落在一条直线周围,则称变量间呈弱线性关系散点图有助于粗略了解这两个变量之间的关系。若此关系近似是线性关系,则称此问题为一元线性回归问题。222~0,YabxN——一元线性回归模型2a,(,其中,是随机误差,不可观测。回归系数)为三个未知参数。bxy2从而(,)YNabxx()()()()并关于的回归函数称为。那么估计的问题称为求一元线性回归问题。EYabxExYabxx231122,(,),(,),...,(,),对的一组不全相同的值得到样本则nnxxYxYxY2,1,2,...,,~0,1,2,...,,相互独立,iiiiYabxinNin24一元线性回归要解决的问题:(1),ab的估计;2(2)的估计;(3)线性假设的显著性检验;(4)b回归系数的置信区间;(5)()xabx回归函数的点估计和置信区间;(6)Y的观察值的点预测和区间预测。25(二)求回归函数的估计,即求a,b的估计现在的问题是:选择一条直线y=a+bx去拟合n个样本点。即求a,b,使得y=a+bx最接近于所给出的n个数据对。采用最小二乘法(1)a、b的计算xy2621i,引入:;其中,为取时的样本观测值。niiiiQabyabxyxx,ˆˆ,ˆˆ,min,ababQabQab求估计,使。112()02()0.,,niiiniiiiQyabxaQyabxxbxy27112111()(*)()().整理得,nniiiinnniiiiiiinaxbyxaxbxy——称之为正规方程组28112211,,1记:nnxyxyaXYBbxy正规方程组的矩阵形式则(*)式可以写成:(XX)B=XY-1B=(XX)XY29121ˆˆ()(ˆ.,)()得的最小二乘估计为:,niixyinxxiiayxbxxyySbSxxab112111(),()().nniiiinnniiiiiiinaxbyxaxbxy2122111211()0ninnniiiinniiiiiiinxnxxnxxxx正规方程系数行列式30在误差为正态分布假定下,最小二乘估计等价于极大似然估计。2212211,exp2niiniLabyabx事实上,似然函数21,niiiLabyabx对最大化等价于对最小化,即最小二乘估计。31ˆ,.ˆˆ,/的最小二乘估计:xyxxaayxbbSSbˆˆˆ(())给定,的估计为:——经验回归函数。xxabaxxbxˆˆˆˆ()方程:——关于的(经验)回归方程,其图形称为回归直=线。Yyabxyxbxx322222222ˆ1(,);12a(,());1()ˆ3Ya(,());ˆ4Cova、、、+、(,)=-。xxxxxxxxbNbSxNanSxxbxNabxnSxbS(2)a、b的评价331ˆ,xyxxxxiiibSSSxxY证明:因为/ˆˆˆ,,()性质:分别是的无偏估计,从而。ababEYabx11ˆ()()()xxiixxiiiiEbSxxEYSxxabx211xxiixxiiibSxxxbSxxbˆˆaYxb因为,所以ˆˆ()()()EaEYxEb()abxxba34例2K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高x(吋)60626465666768707274儿子身高y(吋)63.665.26665.566.967.167.468.370.170求Y关于x的线性回归方程。35267.01,66.8,44794,44842.4,171.6,79.72.经计算得:iiiixxxyiyxxxySSˆˆ,35.9768,0.4646故的最小二乘估计:ab