概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012§8.2单因素方差分析§8.3双因素方差分析§8.4相关关系与回归关系的基本概念§8.1方差分析的概念与基本思想§8.5一元线性回归模型的建立与检验§8.6预测控制与残差分析第八章方差分析与回归分析数理统计§8.7可线性化的一元非线性回归概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012前言第六章和第七章主要讲述了一个正态总体和两个正态总体的有关参数估计和假设检验问题.然而,在生产实际和科学研究中,往往要进行三个或三个以上正态总体的有关参数估计和均值比较问题,所用的统计方法称为方差分析(analysisofvariance).另外,许多实际问题需要了解处于同一研究对象一些变量之间的关系,如输入变量与试验指标之间或试验指标之间往往存在着统计因果关系,研究这种关系的统计分析方法称为回归分析(analysisofregression).回归分析的任务是找出反映这种关系的模型,建立相应的经验方程,用于预测、优化和控制.方差分析和线性回归分析在统计模型上都可以统一在一个理论模型——线性模型之中,其参数估计的主要方法是最小二乘法.本章只是初步的介绍线性统计模型的统计思想和方法.概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012©概率统计教研室2012问题的引入例8.1为了比较四种单层皱纹海运集装箱的抗压强度,从每种集装箱中各随机选取6个进行最大抗压试验,获得试验数据如表8.1所示,假设集装箱的抗压强度服从正态分布.试问不同种类的海用集装箱的抗压强度是否有显著差别?若有差异,哪一种抗压强度最高?§8.1方差分析的概念与基本思想表8.1.1四种集装箱最大抗压强度试验数据表(单位:磅)集装箱类型最大抗压强度平均抗压强度1655.5788.3734.3721.6679.4699.4713.082789.2772.5786.9686.1732.1774.8756.933737.1639.0696.3671.7712.2727.1697.234535.1628.7542.4559.0586.9520.0562.02概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012每种集装箱的平均抗压强度代表了该种集装箱的抗压水平,从表中数据可以看出,四种集装箱的平均抗压强度从大到小依次为第2种、第1种、第3种以及第4种,然而,仅凭平均值的差异进行比较是不够的,因为同一种集装箱的抗压强度之间也有差异。如何进行四种集装箱的抗压强度差异性检验?就是四个正态总体均值差异的检验问题。概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012©概率统计教研室2012例8.2设有五种治疗某种疾病的方案,其中前四种为常规方案,第五种为新方案,为了比较它们的疗效,将30个病人随机分成5组,每组6人,同组的病人施行同一种治疗方案,表8.2记录了病人从开始治疗到痊愈所需的天数.假设病人从开始治疗到痊愈所需的天数服从正态分布.试问不同种类的治疗方案疗效是否有显著差别?若有差异,哪一种治疗方案所需天数最少?表8.1.2五种治疗方案治愈病人所需天数(单位:天)治疗方案治愈所需天数平均治愈所需天数17466355.1729457766.3334663565.00468771087.6756445324.00概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012每种治疗方案的平均治愈所需天数长短代表了该种治疗方案的优劣水平,从表中数据可以看出,五种治疗方案的平均治愈所需天数从短到长依次为第5种、第3种、第1种、第2种以及第4种,然而,仅凭平均治愈所需天数的差异进行比较也是不够的,因为同一种治疗方案的平均治愈所需天数之间也有差异,例如,平均治愈所需天数最短的第5种中治愈所需最长天数6天,而平均治愈所需天数最长的第4种中治愈所需最短天数也为6天.如何进行五种治疗方案的平均治愈所需天数差异性检验?就是五个正态总体均值差异的检验问题。概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012©概率统计教研室2012例8.3一位老师想要检查3种不同的教学方法的效果,为此随机的选取了水平相当的15位学生.把他们分为3组,每组5人,每一组用一种方法教学,一段时间以后,这位老师给这15位学生进行统考,统考成绩见下表.假设学生的考试成绩服从正态分布。试问不同的教学方法的效果是否有显著差别?若有差异,哪一种教学方法的效果最好?教学方法学生统考成绩平均成绩A1756271587367.80A2818568929083.20A3737960758173.60概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012©概率统计教研室2012诸如此类的问题还可以举出很多。抛开其具体的实际背景不论,它们都可以概括和抽象为同一类型数理统计问题:由试验数据对三个或三个以上正态总体的有关参数估计和均值比较,如下图所示。从数理统计角度来看,其实质是判断这些试验数据是否来自同一总体;从实际应用来看就是判断三组或三组以上试验数据产生的背景条件是否一样。总体121(,)N11121,,,mxxx总体i2(,)iN12,,,iiimxxx总体r2(,)rN12,,,rrrmxxx概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012以上问题可以归结为同一类数理统计问题:三个或三个以上正态总体的有关参数估计和均值比较问题,其实质是判断这些样本是否来自同一总体?能否使用两个正态总体均值差的两两T检验,例如,对例1来说作四组均值比较,分别进行六次T检验来解决问题呢?答案是不可以。原因:统计学的结论都是在一定的概率意义下接受或者拒绝的,存在犯错误的可能,若要用6次T检验来考察4种集装箱的抗压强度是否存在差异,按照T检验的思想,假设抗压强度相同,对于某一次比较,犯第一类错误的概率为,那末连续6次的两两比较,犯第一类错误的概率就是,如果取,那末在连续6次检验中,犯第一类错误的概率将上升为0.2649。因此,多个均值比较时不宜采用检验作两两比较。61(1)0.05概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012如果沿用一个总体、两个总体均值检验中通过构造含有所检验样本均值的统计量分布的方法,来建立多总体均值的检验方法,一般说来是困难的。这里暂且不考虑是否能够建立这样的统计量的分布,即使可以建立含有所以样本均值的统计量分布,要满足解决一般实际问题的需要,就需要给出含有各种均值个数的统计量分布。不难想象,这样的统计量将随均值个数的增加而变得形式复杂,从而使其应用受到影响,更何况还不一定能够建立这种含有多样本均值的统计量的分布。三个或三个以上总体均值比较的问题,英国统计学家费希尔R.A.Fisher于1924年在罗桑斯特试验站(RothamstedExperimentalStation)的一系列研究成果给予很好的解答,提出所谓的方差分析法(AnalysisofVariance,简写为ANOVA)的理论基础,将样本的总变异分解为由研究因素所造成的部分和由随机误差所造成的部分,通过构造服从分布的检验统计量,比较来自于不同部分的变异对上述问题作出统计推断。概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012©概率统计教研室20121.试验指标(Experimentalindicators)用于反映试验效果的试验对象特征称为试验指标。这里所提到的试验指标都是定量的。2.因素(Factors)及其水平(Level)把影响一个试验的指标变化的原因称为因素,因素的不同等级称为水平。单因素试验:在试验中仅考察一个因素的试验。多因素试验:在试验中考察两个或两个以上的因素的试验.这类试验一般可用因素的数目来命名,如二因素试验、三因素试验等.3.处理(Treatment)在一个试验中,把所考察因素的不同水平的组合称为处理,即实施试验的条件。二.方差分析中的术语概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012在单因素试验中,因素的每一个水平称为一个处理,试验因素有几个水平,就相应的有几个处理.在多因素试验中,每个因素可设置若干个水平,各因素不同水平的组合称为处理.处理的数目为各因素水平的乘积.【例8.4】表8.4所示为棉花品种、播期、密度三因素试验的处理设计,其目的是了解不同类型棉花在不同播期和密度下的生产力.表8.4棉花三因素试验处理设计A品种B播期C密度(株/667m2)处理号A1(陆地棉)B1(谷雨)C1(3500)1C2(7000)2C3(10500)3B2(立夏)C1(3500)4C2(7000)5C3(10500)6A2(草棉)B1(谷雨)C1(3500)7C2(7000)8C3(10500)9B2(立夏)C1(3500)10C2(7000)11C3(10500)12概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室20124.随机误差(RandomError)影响试验指标的原因:可控因素;随机因素.可控因素:试验中所考虑且加以控制的因素.随机因素:试验中未考虑或者未控制的因素(通常作为试验环境,在一个严格控制的试验中,对所有试验单元应该保持一致,但往往由于不可控制因素的影响做不到).处理效应(组间误差):可控因素的不同水平对试验指标的影响,用该因素的不同水平之间的差异来估计.随机误差:随机因素所造成的试验指标的变异称为随机误差,随机误差是指接受某个处理的试验单元的指标的观察值与其理论值之间的差异.在实际中,通过接受同一处理的不同试验单元的变异来估计.注意:在任何一个试验中随机误差是不可避免的,只能通过严格控制试验条件等手段,减少随机误差,使处理效应能更好的表现出来。概率论与数理统计TheProbabilityTheoryandMathematicalStatistics©概率统计教研室2012三、方差分析的基本思想以例8.1为例来说明方差分析的基本思想。由例8.1的试验以及对工业生产所具有的常识可以知道,不同类型的集装箱其试验指标—抗压强度存在差异,并且同一类型的不同集装箱其抗压强度也会有差异。这两种差异产生的原因,前者主要是由于不同类型的集装箱由于其生产条件、原材料、技术标准等等人为可控或者可辨识的因素的不同造成抗压强度的差异,这就是组间误差,可以通过表8.1中平均抗压强度来估计,后者是除类型外的各种人为不可控的随机因素作用造成的指标的差异,这就是随机误差,可以通过同一类型的不同集装箱的抗压强度之间的差异来度量。那么,如何判断不同种类的海用集装箱的抗压强度是否有差异?若有差异,哪一种抗压强度最高?R.A.Fisher创立的方差分析是解决该类问题的有力工具,其直观想法是:对试验数据所显示的差异进行分解,区分出组间误差和随机误差,利用概率论与数理统计TheProbabil