第十三讲方差分析(定类—定距)(x、y属丌同变量层次)定类——定距是常见的现象:性别——考试成绩地区——平均收入民族——离婚率方差分析:分析或检验总体间均值是否有所不同,而不是方差是否不同。检验所用的手段则是通过方差来进行的。种类:一元方差分析(一个定类变量)二元方差分析三元方差分析不只一个第一节一元方差分析一、方差分析的假定1、与回归的比较(定距——定距)自变量控制后,因变量是一连串的值(yi为随机变量)回归:可以找出自变量与因变量之间的变化方向。方差:自变量取不同类别时,因变量yi的均值是否有所不同例:回归不方差分析比较职业声望受教育程度8018706050401512108职业子女数工人(4人)2;1;3;2;干部(3人)农民(3人)1;2;1;2;3;4;21m2、方差分析的假定:(对因变量分布的必要限制,只有总体分布满足这些限制的条件下,方差分析的讨论才是有意义的)1)等方差性总体中,自变量xi的每一个数值A1,A2,Am对应的因变量yi的分布都具有相同的方差222注意:1、总体方差相等,样本方差不一定相等。2、来自等总体的样本方差不会相差太远,最大与最小相差不超过2-3倍。3、总体方差可通过样本方差进行点估计。公式:样本容量的加权:n11S12n21S22n11n21S22)yi的分布为正态形要求每一个Ai所对应的yi分布都呈正态性(与回归一致)总结:yi应满足正态分布Nui,2二、方差分析的检验:设:总体自变量A共分为m类,A1,A2,Am从A1中抽取n1A2n2Amnm则有统计表:A1A2Am2122m1m2y1n1y2n2ynmmy11y12yyyyy1y2ym原假设H0:u1u2um备择假设H1:有一个以上类别,其均值不等统计量:BSSRSSFm1nmFm1,nm当FF时,拒绝原假设当FF时,接受原假设总平方和:TSS(yijy)组间平方和:BSS(yiy)ni(yiy)mnim统计量的推导不计算222TSSBSSRSSi1j1i12i1j1mnii1j1yyijnniyiij11n1ninij1总平均值:y第i类样本的组平均值:yi统计量的计算还需:观测总数:nni例:下列资料,迚行方差检验。教师(n=5)读书数(本/年)81012205学生(n=5)读书数(本/年)1036125yijyE1TSS2ijyyRSS。2ERSSi当方差分析检验呈显著性后,讨论两变量之间的相关程度,用减少误差比例PRE的方法:E1:不知因变量y与自变量取值A1,A2,Am有关时,预测y所犯的错误,其值为TSS。mni1j1E2:知道因变量y与自变量取值A1,A2,Am有关后,预测y时所犯的错误,其值等于mn2i1j12三、相关比率etaE1E2TSSRSSBSSBSS为已经被自变量解释掉的误差,解释掉的误差越大,变量之间的关系越密切,因此:TSSeta2BSS例:已知:BSS=3.5RSS=95求eta2练习:以下资料求eta2甲地(家庭人口数)67735乙地(家庭人口数)44535丙地(家庭人口数)33242第三节二元方差分析(自变量增加到两个)一、二元方差分析的数学模型(一)两种模型1、自变量A、B独立的对因变量发生影响:独立模型(或线性可加性模型)每一观测值yi均为三种以上因素作用的结果:yijyAi的效果Bj的效果ij2、同时考虑A、B两变量的交互影响:交互模型:yijyAi的效果Bj的效果ABij交互作用ij(二)两种模型对观测值数目的要求1、对独立模型:A共有a种取值,B共有b种取值,对于可能取值ab种搭配,每种情况只要随机抽取一次,组成ab个观测值即可。2、对具有交互作用的模型:如果ab种搭配只进行一次观测,则无法区别数据的变化是由于自变量的交互作用,还是外界未知因素干扰的结果。因此,对于ab种搭配,每种情况至少要观测2次,则总观测数为abrr2A与B两个变量独立,图形是平行线(三)、忽略外界干扰因素后的两种模型的图形:01、理想的独立模型yijyAi的效果Bj的效果例:教员不同教学方法(A)和不同性格(B)对教学效果的影响。A1注入式教学法A2启发式教学法B1性格内向B1性格外向2、理想的交互模型:yijyAi的效果Bj的效果ABij交互作用线段失去平衡是变量间存在交互作用的标志。使每种搭配至少测量二次以上。2rBA(四)实际的模型在存在干扰情况下ij,上述线段不再是平行线,有三种情况:1、本身为独立模型,其图形为非平行性是由外界随机因素干扰而成的:yijyAi的效果Bj的效果ij2、非平行性是由交互作用引起的。yijyAi的效果Bj的效果ABij交互作用3)非平行性由交互因素和随机因素引起的。yijyAi的效果Bj的效果ABij交互作用ij由于交互影响(长驻)与随机干扰(随机)性质不同,因此,为使交互作用表现出来,必须ij二、无重复情况下二元方差分析(一)无重复情况下二元方差分析的假定和假设。原假设H0为:1、ai0i1a2、i0j1b备择假设H1为:参数不全为0(二)、方差分析的检验统计量的推导(平方和的分析法)1、样本观测值T*1T*2T*jB1B2BjBbA1y11y12A2Aiy21yi1y22yi2Aaya1ya2y1jy2jyijyajy1bT1*y2bT2*yibTi*yabi1yijaT*jj1yijbTi*yiyijai1yibj1yj2、行平均值yj1a1ayjy1a1b1ab5、总离差平方和TSS2AByj是A的平均值,因此,A的影响已被抵消,只反映变量B对A的影响。3、列平均值yi:按列将观测值加总求平均1a1b4、总平均值Ti*T**1BssAbi1:变量B的离差平方和(已被变量B:剩余平方和未被A、B解释掉的误差7、BssB8、Rss6、BssA:变量A的离差平方和(已被变量A解释掉的错误)2a2ab解释掉的错误)2b2Rss9、变量A的平均离差平方和10、变量B的平均离差平方和BssAa1BssAa1为自由度BssBb1BssBb1为自由度11、平均剩余误差平方和Rssa1b1a1b1为自由度Fb1a1b1FB统计量:RssRssAFAFa1a1b1FRssBRss根据显著性水平,查附表得AB若:AA显著即拒绝域,原假设不成立FAA相反,接受域,原假设成立;FBB显著即拒绝域,原假设不成立FBB相反,接受域,原假设成立ijk相互独立,且有0,三、重复情况下的二元方差分析i备择假设H1:参数不全为0(一)、假设与假定除考虑自变量A和B的独立作用外,还要A和B的交互作用,其数学模型为:yijkuaijaijijkk1,2r(r为ABj每种搭配重复数)2原假设H0:ai0j00aijT***yijkabryyj(二)、重复情况下二元方差分析的检验对每一种搭配各进行r次重复的独立观测,得到a、b、r个样本观测值。1、总平均值:1abr2、行平均值:T*j*ar3、列平均值:yiTi**brTssBssABssBTT***4、格平均值:TrijyijRssAB5、总离差平方和TSS:2yijky6、BssA:列间平方和——变量A解释掉的误差。2i**brabrBssABssBTTTTRssyijkyij22ij****rabrBss7、行间平方和:22*j****arabr8、交互作用:ABABBssBssABssB9、剩余误差RSS:2RssTssBssABssBAB检验的统计量为:H0:aij0H1:不全为0统计量:abr1a1b1FABABRssABRssFa1b1,abr1TRssTRssAFH0:ai0H1:不全为0统计量:RssARssAabrab1a1Fa1,abrab1FBTRssTRssH0:ai0H1:不全为0统计量:abrab1b1BssBBssBFb1,abrab1给出,查表,对于临界值如果ABAB:拒绝原假设