典型例题-G-方差分析-2某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析,得到如下表所示的结果。每个工人生产产品数量的方差分析表差异源SSdfMSFP-valueFcrit组间③①210⑥0.2459463.354131组内3836②⑤———总计④29————(1)完成上面的方差分析表(2)若显著性水平为=0.05,检验三种方法组装的产品数量之间是否有显著差异。解:(1)完成方差分析表,以表格中所标的①、②、③、④、⑤、⑥为顺序,来完成表格,具体步骤如下:①求k-1根据题目中“该企业准备用三种方法组装一种新的产品”可知,因素水平(总体)的个数k=3,所以第一自由度df1=k-1=3-1=2,即SSA的自由度。②求n-k由“随机抽取了30名工人”可知,全部观测值的个数n=30,因此可以推出第二自由度df2=n-k=30-3=27,即SSE的自由度。③求组间平方和SSA已知第一自由度df1=k-1=3-1=2,MSA=210根据公式1kSSAMSA自由度组间平方和所以,SSA=MSA×(k-1)=210×2=420④求总误差平方和SST由上面③中可以知道SSA=420;此外从表格中可以知道:组内平方和SSE=3836,根据公式SST=SSA+SSE可以得出SST=420+3836=4256,即总误差平方和SST=4256⑤求SSE的均方MSE已知组内平方和SSE=3836,SSE的自由度n-k=30-3=27根据公式0741.142273836knSSEMSE自由度组内平方和所以组内均方MSE=142.0741⑥求检验统计量F已知MSA=210,MSE=142.0741根据4781.10741.142210MSEMSAF所以F=1.4781(2)题目中假设=0.05,根据第一自由度df1=k-1=3-1=2和第二自由度df2=n-k=30-3=27,查F分布表得到临界值F0.05(2,27)=3.354131,所以F=1.4781F=3.354131,所以接受原假设,即1=2=3成立,表明1、2、3之间没有显著差异,也就是说,用三种方法组装的产品数量之间没有显著差异。典型例题-G-方差分析-3五个地区每天发生交通事故的次数如表1所示。由于是随机抽样,有一些地区的样本容量较多,(如南部和西部)而有些地区样本容量较少(如东部)。试以=0.01的显著性水平检验各地区平均每天交通事故的次数是否相等。解:计算原数据的和:东部北部中部南部西部1512101413171014912141313791117151014141281079合计5766645567以及原数据的平方和:东部北部中部南部西部225144100196169289100196811441961691694981121289225100196196144641004981合计831898834539771rjnjiijxnxSST112226538.20067556466572617715398348988310167.1186676555645664577715398348988312222221112jrjnjirjjijxnxSSE6371.820167.1186538.200SSESSTSSA6593.2046371.821,4151rSSAMSAr6198.5210167.118,21526rnSSEMSErn东部北部中部南部西部15121014131710149121413137911171510141412810796762.36198.56593.20MSEMSAF单因素方差分析表方差来源SSdfMSF组间82.63714200.65933.6762组内118.0167215.6198总差异200.653825假设检验:H0:μ1=μ2=μ3=μ4=μ5,五个地区平均每天交通事故的次数相等。H1:μ1,μ2,μ3,μ4,μ5不全相等,五个地区平均每天交通事故的次数不相等。查表得:F0.01(4,21)=4.37F=3.6762所以接受H0,即五个地区平均每天交通事故的次数相等。典型例题-H-相关与回归分析-2设有统计资料如下表所示。某地居民消费和收入的相关表单位:百元消费支出y15203040425360657078可支配收入x18254560627588929998用EXCEL的回归分析(置信度90%),得到如下结果:SUMMARYOUTPUT回归统计MultipleR0.987760119RSquare0.975670053AdjustedRSquare0.972628809标准误差3.545815055观测值10方差分析dfSSMSFSignificanceF回归分析14033.5175654033.517565320.81287799.67595E-08残差8100.582435312.57280441总计94134.1Coefficients标准误差tStatP-valueLower95%Upper95%下限90.0%上限90.0%Intercept-0.208871752.879726332-0.0725318060.943959317-6.8495325746.431789074-5.5638611875.146117686XVariable10.7176566730.04006736917.911250049.67595E-080.6252611530.8100521930.6431494750.792163871试通过用公式计算,比较对照,理解所得结果。解:x-bar=66.2,y-bar=47.3相关系数为987760119.01.41346.78314.562022YYXXYYXXriiiiXY1.413412niiyySST717656673.066251656104736623693310ˆ212121111niniiiniiniiniiixxnyxyxn20887175.02.66717656673.03.47ˆˆ0xyiixy717656673.020887175.0ˆ517565.4033ˆ12niiyySSR5824353.100ˆ12niiiyySSESSR+SSE=4033.517565+100.5824353=4134.1=SST222)(987760119.0975670053.01.4134517565.4033XYrSSTSSRr对于第一部分:SUMMARYOUTPUT回归统计MultipleR0.987760119RSquare0.975670053AdjustedRSquare0.972628809标准误差3.545815055观测值10通过以上计算分析,可知:MultipleR0.987760119是相关系数;RSquare0.975670053是判定系数;AdjustedRSquare0.972628809是根据以下公式来计算的:972628809.01110110)975670053.01(111)1(122pnnRR标准误差3.545815055是根据以下公式来计算的:545815055.32105824353.10022ˆ12nSSEnyysniiie观测值10是原始数据的个数,即n。对于第二部分:方差分析dfSSMSFSignificanceF回归分析14033.5175654033.517565320.81287799.67595E-08残差8100.582435312.57280441总计94134.1第一列df是自由度,第1行的1表示是一元线性回归;第二行是残差的自由度n-2=8,第三行是总的自由度1+8=9;第二列SS是误差平方,第一行是SSR=4033.517565,第二行是SSE=100.5824353,第三行是SST=4134.1,这里有SSR+SSE=SST;第三列MS是平均误差平方,第一行是MSR=4033.517565/1=4033.517565,第二行是MSE=100.5824353/8=12.57280441;第四列F是F=MSR/MSE=4033.517565/12.57280441=320.6128779;最后一列SignificanceF是用EXCEL函数FDIST(320.8128779,1,8)计算出来的。9.67595E-08是科学计数法,表示9.67595×10-8对于第三部分:Coefficients标准误差tStatP-valueLower95%Upper95%下限90.0%上限90.0%Intercept-0.208871752.879726332-0.0725318060.943959317-6.8495325746.431789074-5.5638611875.146117686XVariable10.7176566730.04006736917.911250049.67595E-080.6252611530.8100521930.6431494750.792163871第一列Coefficients是回归系数,第一行是截距的回归系数,即β0^=-0.20887175,第二行是斜率的回归系数,即β1^=0.717656673;第二列标准误差,第一行是截距的标准误差,是根据以下公式来计算的:879726332.26.78312.66101545815055.3)(12122ˆ0niiiexxxnss第二行是斜率的标准误差,是根据以下公式来计算的:040067369.06.7831545815055.312ˆ1niiiexxss第三列tStat,即t统计量,由对应的回归系数除以标准误差:-0.20887175/2.879726332=-0.0725318060.717656673/0.040067369=17.91125004第四列Pvalue,是用EXCEL函数TDIST(|tStat|,n-2,2)计算出来的,第一个参数是t统计量,第二个参数是自由度,第三个参数2表示双尾。TDIST(|-0.072531806|,8,2)=TDIST(0.072531806,8,2)=0.943959317TDIST(|17.91125004|,8,2)=TDIST(17.91125004,8,2)=9.67595E-089.67595E-08是科学计数法,表示9.67595×10-8第五、六列的Lower95%,Upper95%是EXCEL默认的95%置信度下,截距和斜率的置信区间,是根据以下公式来计算的:879726332.230600413.220887175.0)2(ˆ0ˆ0snt即:849532574.6)2(ˆ0ˆ0snt431789074.6)2(ˆ0ˆ0snt040067369.030600413.2717656673.0)2(ˆ1ˆ1snt即:625261153.0)2(ˆ1ˆ1snt810052193.0)2(ˆ1ˆ1snt第七、八列的下限90%,上限90%是根据输入的90%置信度下,截距和斜率的置信区间,是根据以下公式来计算的:879726332.285954803.120887175.0)2(ˆ0ˆ0snt即:5638611