概率论与数理统计主讲教师陈争第8章方差分析与回归分析§8.1单因素试验的方差分析§8.2回归分析的概念§8.3一元线性回归第8章方差分析与回归分析§8.1单因素试验的方差分析一、基本概念由于试验条件的影响,在进行试验时,可能使试验结果表现出系统误差.称可控制的试验条件为因素,因素变换的各个等级为水平.如果在试验中只有一个因素在变化,其它可控制的条件不变,称它为单因素试验;若试验中变化的因素多于一个,则称为多因素以及多因素试验.单因素试验中,若只有两个水平,就是第七章的两个总体的比较问题.超过两个水平时,也就是需要多个总体进行比较,这时,方差分析是一种有效的方法.§8.1单因素试验的方差分析设单因素A具有r个水平,对每个水平进行重复试验,列出试验记录表:行和行平均因素水平试验批号inj21injXXXX111211injXXXX222221iniijiiXXXX21inrrjrrXXXX21riAAAA21riTTTT21riXXXX21XnXTrinjiji11iriirinjijXnnXnXi11111injijiiXnX11iinjijiXnXTi1.21rnnnn),,2,1(riijX其中表示第i个等级进行第j次试验的可能结果.记(8.1)(8.2)(8.3)(8.4)二、方差分析的假设前提设单因素A具有r个水平,分别记为在每个水平下,要考察的指标可以看(2)每个总体的方差相同;(3)从每个总体中抽取的样本相互独立.(1)每个总体均服从正态分布,而且未知;,,,,21rAAA),,2,1(riAi成一个总体,故有r个总体,并假设2,i如果要检验的因素对试验结果没有显著影响,则试验的全部结果应来自同一正态总体待检假设为ijX).,(2N.:210rHrH211,:不全相等.三、偏差平方和及其分解组间(偏差)平方和为了通过分析对比产生样本之间差异性的,211rinjijTiXXS,21XXnSiriiA原因,从而确定因素A的影响是否显著,引人偏差平方和ijXTS能反映全部试验试验数据之间的差异.总偏差平方和它是由因素A取不同水平引起的.AS反映在每个水平下样本均值与样本总均值的差异,组内(偏差)平方和iAES,211rinjiijEiXXS表示在水平下样本值与该水平下的样本均值之AETSSS间的差异,它是由随机误差引起的,故称为误差平方和.平方和分解公式四、检验方法如果组间差异比组内差异大得多,即说明因素的各水平间有显著差异,r个总体部能认为是同一正态总体,应认为假设不成立,此时,比值为真时,有0H有偏大的趋势,为此,选统计量EASrSrn1在EAEASrSrnrnSrSF1)/()1/().,1(~1rnrFSrSrnFEA的值,),1(rnrF对给定的显著性水平α,查),1(rnrFF),1(rnrFF从而得到F的值.,,AESS由样本观察值计算时,拒绝,0H当表示因素A当时,接受,0H的各水平下的效应有显著差异;表示没有理由认为因素A的各水平下的效应有显著差异.满足:F如果对因素的每一个水平试验次数相同,即r个)(FFP则称为等重,21snnnr样本的容量都相同:复试验;否则称为不等重复试验.单因素方差分析表方差来源平方和自由度均方和F值因素A误差E总和TESASTSrn1r1n1rSAEASrSrnF)1()(rnSE,212nTnTSriiiA,ATESSS计算时,常用的公式:,2112nTXSrinjijTi,11XnXTrinjiji.1iinjijiXnXTi例1粮食加工厂试验5种储藏方法,检验它们对粮食含水率是否有显著影响.在储藏前这些粮食的含水率几乎没有差别,储藏后的含水率如下表所示,问不同的储藏方法对含水率的影响是否有明显差异?因素A试验批号含水率(%)543215.94.64.73.81.79.71.84.53.70.101.76.74.83.854321AAAAA行和因素A试验批号含水率(%)5432154321AAAAA5.94.64.73.81.79.71.84.53.70.101.76.74.83.8解9.3913.1059.195.144.271.71324.31841.5025.250iTiinT/2,19.85612riiinT,8.10811rinjijiXT,36.863112rinjijiX,53.84514)8.108(22nT,66.1053.84519.856212nTnTSriiiA,ATESSS83.1733.84536.8632112nTXSrinjijTi单因素方差分析表方差来源平方和自由度均方和F值因素A误差E总和T17.7ES66.10AS83.17TS951441513114665.24AS35.3796.0665.2F796.09ES,63.3)9,4(05.0F,FF可认为没有显著差异.§8.2回归分析的概念一、确定性关系和非确定性关系1.确定性关系——即函数关系,总可以用形如y=f(x)之类的函数来描述.例如:.2Rs,sinxy2.非确定性关系——即两个变量之间存在某种相互依赖的关系,但又不能用形如y=f(x)的函数关系来确切描述,即不能由一个确定的x值,找到唯一确定的y值,这种关系称为非确定性关系.在非确定性关系中,很多情况是两个变量x,y之间,尽管不存在确定性的函数关系,但是两个变量之间都存在某种统计规律性所能刻画的相互关系,一般构成§8.2回归分析的概念这种统计规律的联系总是因为某种随机因素起作用的结果.这一类关系称为相关关系或统计相关.在存在相关关系的两个变量之间必然存在某种随机因素的作用.例1人的身高与体重之间的关系.例2居民按人口计算的平均收入与某种商品的消费量之间,有着一定的联系.例3森林中的同一种树木,其断面直径与高度之间是有联系的.例4农作物的产量与施肥量、气候、农药也有这种不确定的关系.二、回归分析1.回归关系如果两个变量中一个是非随机变量,另一个是随机变量,则这两个变量之间的关系为回归关系.2.回归分析由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析,称为回归分析.3.回归函数近似地描述具有相关关系的变量间联系的函数称为回归函数.三、回归分析的内容初步判断是否建立回归模型,由相关分析的结果,选择何种回归模型;根据实际数据资料,估计回归方程未知参数,计算估计值标准误差,建立回归模型;进行回归模型检验,参数检验;进行回归点预测,对给定的置信程度,构造回归模型的区间预测.进行回归控制;利用分析结果作出决策.12345§8.3一元线性回归方程一、经验公式与最小二乘法1.经验公式在一元回归分析里,我们要考察的是:随机变量Y与普通变量x之间的关系.x的变化会引起Y相应的变化,但它们之间的变化关系是不确定的.当x取任一可能值时,Y相应地服从一定的概率分布,则称随机变量Y与x之间存在着相关关系.先考察两个变量的模型:y=f(x)§8.3一元线性回归方程由于两个变量之间不存在完全确定的函数关系,因此必须把随机波动产生的影响引入方程:)(xfY其中Y是随机变量,x是普通变量,ε是其它因素对Y影响的总和.,,iiyx对于观察点nixfyiii,,2,1)(首先一个问题是如何根据已经试验的结果以及以往的经验来确定回归函数的类型以及求出函数中的未知参数的估计,得到经验公式.ε是随机项.有例1以家庭为单位,某种商品年需求量与该商品价格之间的一组调查数据如下表所示:价格(元)1222.32.52.62.833.33.5iy需求(斤)53.532.72.42.521.51.21.2ix从表上可以看出,价格不变,需求仍可能变化,价格改变,需求也可能不变.但是,总的趋势是家庭对该商品的年需求量随着价格的上升而减少,它们之间存在着密切的联系.我们要找出近似地描述它们之间关系的回归函数,也就是求y对x的回归方程.为了确定回归函数)(xfy据作为直角坐标平面上点的坐标,并把这些点画在直角坐标平面上.这样得到的图称为散点图.54321xy012345的类型,先把10对数从图上可以看出,需求量与价格大致成线性关系.称为y对x的回归方程.因而可以决定该种商品的需求量y对价格x的回归函数类型为直线型.我们把y对x的回归函数记为xy10即经验公式的形式已经确定.y就需确定使该直线总的看来最“接近”这10个点.为y的估计值或回归值.从图上看,要找于是,这条直线在y轴上的截距就是关系式其中称为回归系数.上画一条直线l,xy101.,10,010,是不难的,在图斜率就是.1要完全找出经验公式,但本质上是等价的,都是考虑了随机影响的相关关系与y=f(x)+ε虽然形式不一样,表达式.所不同的是随机影响ε转移到记号yy化为确定系数是直接由函数y=f(x)计算得到,而是从样本信息通过估计分析得到,无疑包含了随机因素的影响.式上的转化很重要,由于去掉了的随机部分,从而使模型大大简化,使定量分析成为)(xfy成可能.对于具体问题,一元回归方程的建立,就转注意:.,10xy10xy10将y=f(x)+ε式中的中去了.显然的估计值不这一形式中一般地,两个变量的线性回归模型为xY10),,0(~2N0E取一个容量为n的样本),,(iiyxiiixY10in21,,,表示第i次观察的随机误差.误差具有相同的分布且相互独立,并且假定:利用样本niyxii,,2,1),(讨论如下两个问题:(1)估计;10,(2)检验数学模型的合理性.),0(~2Ni0,jiE未知)2,,,2,1(ni),,2,1,,(njiji有2.参数估计(最小二乘估计法)设在一次抽样试验中,取得n对数据),,(iiyx这n对数据即为一组样本值,的值,的估计值.过另一组试验值又可以得到另一对用一组样本值求到的只能是回归系数的估计值,记做10,于是通过题设给出的一组样本值所求的回归方程为:xy1010,其中,寻求一对10,的值.10,10,是回归系数根据这一组样本值可以显然但由于Y是一随机变量,所以通是求式中回归系数估计的最常用的方法.),(iiyx对于上述给出的n对数据的距离.记为iyiy估计值),(iiyx标之差(或垂直偏差,或残差).即散点|,|iiyy),(iiyy),(iiyxiiiyy)(10iixy机变量Y的每一个试验值),,2,1(nii最小二乘法:构成的样本,随在散点图中表现为两者纵坐这个差值可正可负,其绝对值为值式中对应的与到回归直线上点的差其基本原理与具体做法如下:10,xy10xy10这n个样本值引起的垂直偏差n显然这个总偏差不能用的代数和来in21表示,因为偏差有正有负,),(iiyx),(iiyxxy10ixxyiyiy||iiyyi2可能互相抵消,从而不能代表真正的偏差.为此,我们采用偏差平方和,即用02iiyy),(iiyx描述点与它沿平行纵轴方向到直线l的远近距离.l1就构成了总偏差,验值2110niiixy就定量地描述了所有试