15---卡方检验-1

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十五讲χ2检验-1χ2检验(chi-squaretest)是专门用于计数数据的统计方法。由于这类数据在整理时,常常以列联表(contingencytable)或交叉表(crosstabulation)呈现,因此这种分析方法又被称为列联表分析或交叉表分析。一.χ2检验及其特点1.χ2分布χ2分布是统计学中应用较多的一种抽样分布。χ2值是从同一总体中随机抽取的无限多个容量为n的样本数据的平方和或标准分数的平方和,即22X222X或此时χ2分布的自由度为df=n。如果正态总体的平均数未知,需要用样本平均数作为总体平均数的估计值,这时公式变为:此时,χ2分布的自由度为df=n-1。22222SnXXχ2分布曲线相对频数00.050.10.150.20.25图15-1几种不同自由度的χ2分布曲线(α=0.05)n=1n=4n=10n=20χ2显而易见,χ2检验主要应用的是右侧概率。2.χ2分布的特点⑴.χ2分布呈正偏态,曲线的右侧无限延伸,但不与基线相交。⑵.χ2值都是正值。⑶.χ2分布的和也是χ2分布。⑷.χ2分布随自由度的变化而不同。自由度越小,曲线偏斜度越大;自由度越大,分布形态越趋于对称。3.χ2检验χ2检验用于对点计而来的离散型数据资料进行假设检验,对总体的分布不做要求,也不对总体参数进行推论。χ2检验主要是对总体的数据分布进行假设检验,因此属于自由分布的非参数检验。χ2检验是对由样本得来的实际频数与理论频数的分布是否有显著性差异所进行的检验。其计算公式为:这一公式是根据1899年统计学家皮尔逊推导的配合适度的理论公式而来。这是与前述χ2分布非常近似的次数分布。当fe越大时,其接近的越好。(15.1)eefff202χ2值的特点⑴.χ2值具有可加性;⑵.χ2永远是正值;⑶.χ2的大小随实际频数与理论频数差的大小而变化。两者之差越小,说明样本分布与假设的理论分布越一致;两者之差越大,说明样本分布与假设的理论分布越不一致。理论频数也称为期望次数。二.单向表的χ2检验(配合度检验)把实得的点计数据只按一种分类标准编制成表就是单向表。对单向表的数据所进行的χ2检验,称为单向表的χ2检验,也称为配合度检验(goodnessoffittest)。1.单向表χ2检验的计算公式单向表中只有一个变量,被按一定标准分为k组。单向表χ2检验中,χ2值的计算公式可采用(15.1)式,自由度为df=k-1。eefff2022.单向表χ2检验中理论频数的计算两种情形各类别理论频数相等各类别理论频数符合一定的比例计算要点将总频数平均分到几个类别将总频数按已知比例分到几个类别3.χ2检验的计算表15-1单向表χ2检验计算表分组Ⅰ分组Ⅱ分组Ⅲ总和χ2ofefeoff2eoffeeofff2例1:随机抽取60名学生,询问他们在高中是否需要文理分科,赞成分科的39人,反对分科的21人,问他们对分科的意见是否有显著差异?解:1.提出假设H0:学生对分科的意见没有显著差异H1:学生对分科的意见有显著差异2.选择检验统计量并计算对点计数据进行差异检验,可选择χ2检验计算表15-2学生对分科意见的χ2检验计算表赞成39309812.7反对2130-9812.7总和60605.4ofefeoff2eoffeeofff2自由度为:df=k-1=13.统计决断查χ2值表,当df=1时84.3205.0)1(63.6201.0)1(计算结果为:χ2=5.4*3.84<χ2=5.4<6.63,则0.05P0.01结论:学生对高中文理分科的态度有显著差异。表15-3χ2检验统计决断规则χ2与临界值比较P值显著性检验结果χ2<P>0.05不显著保留H0,拒绝H1≤χ2<0.05≥P>0.01显著*在0.05显著性水平拒绝H0,接受H1χ2≥P≤0.01极其显著**在0.01显著性水平拒绝H0,接受H1201.0)(df201.0)(df205.0)(df205.0)(df例2:大学某系54位老年教师中,健康状况属于好的有15人,中等的有23人,差的有16人。问该校老年教师健康状况好、中、差的人数比例是否为1:2:1?1.提出假设H0:健康状况好、中、差的人数比例是1:2:1H1:健康状况好、中、差的人数比例不是1:2:12.计算表15-4老年教师健康状况的χ2检验计算表好1513.51.52.250.167中2327.0-4.016.00.593差1613.52.56.250.463总和54541.22ofefeoff2eoffeeofff23.结论查χ2值表,当df=k-1=2时99.5205.0)2(计算结果为:χ2=1.22χ2=1.22<5.99,则P0.05结论:理论频数与实际频数差异不显著,表明该校老年教师健康状况的人数比例是1:2:1。4.χ2的连续性校正当df=1时,其中只要有一个组的理论频数小于5,就要运用亚茨(Yates)连续性校正法,计算公式为:eefff2025.0(15.2)之所以要进行连续性校正,是因为由点计数据求得的χ2值是间断数列,当df=1,fe<5时,其间断性尤其明显。而χ2值表上的理论值是用连续量表表示的,其χ2分布是一条连续的光滑曲线。为了对连续的χ2曲线作较好的估计,需要在每个小于理论频数的实际频数上加0.5,而在大于理论频数的实际频数上减去0.5。例3:历年优秀学生干部中男女比例为2:8,今年优秀学生干部中有3个男生,7个女生。问今年优秀学生干部的性别比例与往年是否有显著差异?1.提出假设H0:今年优秀学生干部的性别比例与往年没有显著差异H1:今年优秀学生干部的性别比例与往年有显著差异2.计算表15-5学生干部性别比例的χ2检验计算表男3210.50.250.125女78-10.50.250.031总和10100.156ofefeoff5.00effeeofff2自由度为:df=k-1=125.0eoff3.统计决断查χ2值表,当df=1时84.3205.0)1(计算结果为:χ2=0.156χ2=0.156<3.84,则P0.05结论:优秀学生干部中的性别比例与往年一样。思考:为什么只有df=1时需要校正?三.频数分布正态性的χ2检验实际应用中,常常需要对一组数据的分布是否符合正态的情况进行检验。除了用累积分布曲线的形状和皮尔逊的经验公式进行大致判断之外,对实际频数分布与理论频数的分布是否一致的χ2检验是对数据分布形态进行检验的比较精确和可靠的方法。频数分布正态性检验的基本思路将待检验的一组数据列成次数分布表。根据次数分布表的分组界限,计算出该组数据正态分布情况下的理论频数。对实际频数与理论频数是否一致进行χ2检验。思考:如何计算各组的理论频数?频数分布正态性检验的计算要点⑴.将次数分布表中各分组区间的上、下限转换成标准分数Z值;⑵.根据各组上、下限Z值查表,寻找Z=0至各组上、下限Z值之间的面积;⑶.求各组的面积(即概率)。计算中应注意Z值的正、负号。⑷.将各组的面积与总频数相乘,求出各组的理论频数。计算理论频数时,两端若有任何一组的理论频数小于5,需要将这组的理论频数与相邻组的理论频数合并。如果合并后仍然小于5,可再合并,直至大于5为止。⑸.根据计算出的理论频数与表中的实际频数,计算各组的χ2值,并将各组χ2值相加,得到最终的χ2值。(注意:自由度为df=k-3)练习与思考认真复习χ2检验的方法,掌握单向表χ2检验的计算公式。思考:什么样的数据属于点计数据,适合做χ2检验?2010年3月再见!

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功