本章目标1.理解方差分析的概念2.知道方差分析解决什么样的问题3.掌握单因素和多因素方差分析的原理4.会利用Minitab对实际问题进行方差分析5.能够对方差分析的结果作出解释返回目录方差分析的引入(续一)方差分析(ANOVA:analysisofvariance)能够解决多个均值是否相等的检验问题。方差分析是要检验各个水平的均值是否相等,采用的方法是比较各水平的方差。返回目录方差分析的引入(续三)方差分析实际上是用来辨别各水平间的差别是否超出了水平内正常误差的程度观察值之间的差异包括系统性差异和随机性差异。返回目录方差分析的引入(续四)观察值期望值差距总离差组内方差组间方差水平1水平2返回目录7.2怎样得到F统计量总离差组内方差组间方差211()jngTijjiSSXX21()gjBjjnXXSS211)(jjWngijjiXSSXjigjijjXXX第个水平中的第个个体水平的个数总体的均值第个水平的样本均值返回目录怎样得到F统计量水平间(也称组间)方差和水平内(也称组内)方差之比是一个统计量。实践证明这个统计量遵从一个特定的分布,数理统计上把这个分布称为F分布。即注意:组间方差(SSB)+组内方差(SSw)=总方差(SST)F=组间方差/组内方差返回目录方差分析的前提不同组样本的方差应相等或至少很接近水平1水平2水平1组内方差远远超过两水平组间方差,我无法分离这两种差别!返回目录检验方差是否一致在方差分析之前,我们可利用Minitab对数据作方差一致性检验Minitab能够读取的数据格式与上表给出的格式不同,我们必须把数据转化为Minitab能够理解的形式,具体做法是:将所有变量值输入工作表的第一列,对因素进行编码,按照一定的顺序编为1、2、3...,输入后面几列。对本例:1.先将素质测评的得分输入工作表列一;2.三个分支分别编码为1、2、3,对应于变量值填入第二列;返回目录给出假设因素是方差分析研究的对象,在这个例子里,两个变量分别是分支机构位置和员工素质测评分数,这里分支机构的位置就是一个因素,因素中的内容就称为水平。该因素中有三个水平,即机构的不同位置。学过第5章的知识后,我们可以给出下面的假设:0123H:1H:总体均值不全相等返回目录相关分析是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。相关关系度量工具相关表相关系数r散点图相关分析概念度量工具种类返回目录符号:r0正相关;r0负相关测定两变量是否线性相关?相关系数yxxy定义式:实际计算:2222)()(yynxxnyxxynr计算公式值:|r|=0不存在线性关系或存在非线性相关;|r|=1完全线性相关0|r|1不同程度线性相关(0~0.3微弱;0.3~0.5低度;0.5~0.8显著;0.8~1高度)返回目录相关系数的检验:相关系数的检验(t检验)H0:ρ=0,H1:ρ≠0检验统计量212rnrt统计量t遵从t(n-2)分布,将r变换成t后,可以用t检验方法检验ρ=0是否成立。拒绝域拒绝域接受域返回目录1.一元线性回归模型拟合优度的评价判定系数(R2)是对回归模型拟合优度的评价。222)ˆ()ˆ()(yyyyyy总偏差=回归偏差+剩余偏差总偏差回归偏差2Rbxayˆx)(0yy)ˆ(0yy)ˆ(yyyy返回目录2.一元线性回归模型的显著性检验回归系数b的检验:1.提出假设。H0:β=0;H1:β≠02.确定显著性水平α。3.计算回归系数的t值。bSbtb4.确定临界值。双侧检验查t分布表所确定的临界值是(-tα/2)和(tα/2);单侧检验所确定的临界值是(tα)。5.做出判断。返回目录当样本量n30,用t检验当样本量n30,t分布接近于标准正态分布Z,所以可以用正态分布代替。系数检验的方法选择:返回目录1.提出假设:H0:R2=0;H1:R2≠02.计算检验统计量3.比较做出判断回归模型整体的F检验2ˆ1ˆ22nyyyyF自由度剩余偏差自由度回归偏差返回目录8.6一元线性回归模型的Minitab实现例8-2.某家电集团1989年至1998年10年的广告费支出与销售量的资料如下表所示:年份89909192939495969798广告支出x(万元)10204050608070110110140销售量y(万元)20303540507065807095试根据此资料确定销售量y与广告费支出x的是否存在线性关系,并进行模型分析。返回目录系数的t检验拟合优度R2方程的F检验预测方程结果输出:返回目录常见的可线性化的曲线回归方程:英文名称中文名称方程形式Linear线性函数Logarithm对数函数Inverse双曲线函数Quadratic二次曲线Cubic三次曲线Power幂函数Compound复合函数SS形函数Logistic逻辑函数u是预先给定的常数Growth增长曲线Exponent指数函数xbby10xbby/10)(xbby10exp)/(xbby10exp10bxby2210xbxbbyxbbyln10xbbuy1011xbby10)(xbby10exp332210xbxbxbby返回目录常用的非线性函数的线性变换法下面是我们常用的4种线性变换法,分别举例进行说明,其他的非线性方程也可以以此类推,得到相应的线性形式。1.倒数变换。例如:双曲线模型令,将其代入得2.半对数变换。例如:对数函数令,代入得xbbyln10xxln**xbby10xx/*1*xbby10xbby/10返回目录常用的非线性函数的线性变换法(续)3.双对数变换。例如:幂函数两边取对数的变换得:令代入得:4.多项式变换。如二元二次多项式令代入得:kbkbbxxxby21210kkxbxbbylnln110lnln*k110xbxbbyk***kkxxxxbbyyln,,ln;ln;ln****110021522421322110xxbxbxbxbxbby*5544*33*22110xbxbxbxbxbby**,,,,,2152242132211xxxxxxxxxxx*****返回目录回归分析的一般程序定性和定量分析相结合正确选择变量搜集(试验)统计数据估计回归方程检验回归方程检验回归系数通过验证理论估计影响预测变化通过不通过不通过返回目录9.1多元线性回归分析的基本理论多元线性回归是简单线性回归的推广,指的是多个因变量对多个自变量的回归(MultivariateRegression),最常用的是一个因变量对多个自变量的回归。返回目录多元线性回归模型的性质截距偏回归系数例二元线性回归模型:23121ˆxbxbbyb2:假定x2固定时x1每变动1个单位引起的y的增量。b3:假定x1固定时x2每变动1个单位引起的y的增量。是x1和x2共同变动引起的y的平均变动,反映一组自变量与因变量的平均变动关系。23121ˆxbxbby是给定x1、x2计算得到的估计值,是y的实际值的数学期望。yˆ返回目录一.拟合程度的评价调整可决系数式中,n是样本容量;k是模型中回归系数的个数。调整可决系数的特点。)()1()1(1)1/()()/(12222knnRnyykneRtt9.4多元线性回归模型的检验2R返回目录二.多元线性回归模型的显著性检验回归系数b的检验1.提出假设。H0:βj=0;H1:βj≠02.确定显著水平α。3.计算回归系数的t值。式中,是的标准差的估计值。按下式计算:式中,是(X’X)-1的第j个对角线元素,S2是随机误差项方差的估计值。,1,2,ˆkjSbtjjbjjjbSSj2jjjbS返回目录二.多元线性回归模型的显著性检验(续一)4.确定临界值。双侧检验查t分布表所确定的临界值是(-tα/2)和(tα/2);单侧检验所确定的临界值是(tα)。5.做出判断。拒绝域拒绝域接受域双侧检验图示:返回目录回归方程的显著性检验具体的方法步骤回归模型方差分析表F统计量二.多元线性回归模型的显著性检验(续二)离差名称平方和自由度均方差回归平方和k-1SSR/(k-1)残差平方和n-kSSE/(n-k)总离差平方和2)yySSRt(2)ˆyySSEt(2teSST)-/(1)-/(knSSEkSSRF返回目录例9-1:在研究某超市顾客人数y与该超市促销费用x1、超市面积x2、超市位置x3之间关系时,选取变量如下:y——某超市某一周六顾客人数(千人)x1——该超市上周促销所花的费用(万元)x2——该超市的面积(百平方米)x3——超市所处位置(0表示市区、1表示郊区)按照y变量排序后的原始数据是:y23578101724253031353642444548505255x111.52222.32.52.52.42.62.52.544.144.34.54.444.1x2211.31.31.51.522.5224343.53.53.55578x311110111001010001000多元回归案例分析:返回目录输入数据见图直接回归法:点击Stat——Regression——Regression返回目录2R拟合的多元方程回归系数的t检验调整后的可决系数可决系数回归方程的F检验2R输出结果:返回目录若我们上面的预测方程不显著,但确实知道其中几个变量存在着一定的线性关系,我们也可以运用逐步回归的方法对变量进行分析处理。点击选择回归方法点击弹出变量选择框如下:逐步回归实现:返回目录2R方程中X1的回归系数及其t检验值、p值可决系数及调整后的可决系数回归方程常数项2R点击OK返回目录SS(factor)的自由度是,A1lSS(error)的自由度是,EllmEATComputingDegreeofFreedom自由度的计算One-WayANOVAPrinciplesOne-WayANOVA的原理1lmTDOFofSS(total),SS(total)的自由度是,T1lmDOFofSS(factor),1lADOFofSS(error),1lmE因子(factor)平方和(SumofSquares)自由度(DegreeofFreedom)均平方(MeanSquare)F值SSBetweenSSWithinTotalijiAxxSS2limjijTxxSS1121lmT)1(mlE1lAAAASMSEEESMSEAMSMSF0limjijExxSS112One-WayANOVAPrinciplesOne-WayANOVA的原理RegressionAnalysis:Oxygenpurity%versusHydrocarbon%TheregressionequationisOxygenpurity%=74.3+14.9Hydrocarbon%PredictorCoefSECoefTPConstant74.2831.59346.620.000Hydrocar14.9471.31711.350.000S=1.087R-Sq=87.7%R-Sq(adj)=87.1%AnalysisofVarianceSourceDFSSMSFPRegression1152.13152.13128.860.000ResidualError1821.251.18Total19173.38Example1A:MinitabSessionWindow例1A:Minitab的对话窗口TheF-tes