第九章卡方检验一、卡方检验的特点卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验。即根据样本的频数分布来推断总体的分布。它属于自由分布的非参数检验。它可以处理一个因素分为多种类别,或多种因素各有多种类别的资料。卡方检验专门用于计数数据的分析,对于总体的分布—计数数据的分布状态不做任何假设,故卡方检验又是非参数检验方法的一种。第一节χ2及其分布二、卡方检验的统计量eefff2020f卡方检验是对由样本得来的实际频数与理论频数的分布是否有显著性差异所进行的检验。其计算公式为:表示实际频数表示理论次数ef•例:抛投一枚硬币80次,结果正面朝上46次,反面朝上34次,问该枚硬币质地是否均匀?从理论上讲,抛一枚质地均匀的硬币,正反面朝上的概率相等,那么如果抛投硬币80次,正面或反面朝上的理论频数均为80/2=40次。这样,实际频数(正面朝上46次,反面朝上34次)与理论频数(正面与反面朝上均为40次)之间的差异用χ2表示为:2022246403440=+4040=1.80eefff()()χ2值的特点⑴.χ2值具有可加性;⑵.χ2永远是正值;⑶.χ2的大小随实际频数与理论频数差的大小而变化。两者之差越小,说明样本分布与假设的理论分布越一致;两者之差越大,说明样本分布与假设的理论分布越不一致。又叫期望次数三、χ2的抽样分布•从某校随机抽取50个学生,统计男生与女生的实际人数,可以计算出一个χ2值,把这50个学生放回总体中,再从中随机抽取50个学生,又可以计算出一个样本χ2值。这样反复下去,就有一切可能个样本χ2值,这一切可能个样本χ2值的分布,就形成一个实验性的χ2分布。•χ2分布有以下几个特点:(1)χ2分布呈正偏态,右侧无限延伸,但永不与基线相交。(2)χ2分布随自由度的变化而形成一簇分布形态。自由度越小,χ2分布偏斜度越大;自由度越大,χ2分布形态越趋于对称。χ2分布曲线相对频数00.050.10.150.20.25图9-1几种不同自由度的χ2分布曲线(α=0.05)n=1n=4n=10n=20χ2第二节单向表的χ2检验把实得的点计数据按一种分类标准编制成表就是单向表。对于单向表的数据所进行的卡方检验就是单向表的卡方检验,即单因素的卡方检验。对这类单向表数据进行的χ2检验,就是要检验抽样所获得的样本分布是否与某一假设的理论分布一致,是否符合某一假设的理论分布。一.单向表χ2检验的计算公式单向表中只有一个变量,被按一定标准分为k组。单向表χ2检验中,χ2值的计算公式可采用(9.1)式,自由度为df=k-1。eefff202(9.1)二.单向表χ2检验中理论频数的计算两种情形各类别理论频数相等各类别理论频数符合一定的比例计算要点将总频数平均分到几个类别将总频数按已知比例分到几个类别三.χ2检验的计算表9-1单向表χ2检验计算表分组Ⅰ分组Ⅱ分组Ⅲ总和χ2ofefeoff2eoffeeofff2例1:随机抽取60名学生,询问他们在高中是否需要文理分科,赞成分科的39人,反对分科的21人,问他们对分科的意见是否有显著差异?解:1.提出假设H0:学生对分科的意见没有显著差异H1:学生对分科的意见有显著差异2.选择检验统计量并计算对点计数据进行差异检验,可选择χ2检验表9-2学生对分科意见的χ2检验计算表赞成39309812.7反对2130-9812.7总和60605.4ofefeoff2eoffeeofff2自由度为:df=k-1=13.统计决断查χ2值表,当df=1时84.3205.0)1(63.6201.0)1(计算结果为:χ2=5.4*3.84<χ2=5.4<6.63,则0.05P0.01结论:学生对高中文理分科的态度有显著差异。表9-3χ2检验统计决断规则χ2与临界值比较P值显著性检验结果χ2<P>0.05不显著保留H0,拒绝H1≤χ2<0.05≥P>0.01显著*在0.05显著性水平拒绝H0,接受H1χ2≥P≤0.01极其显著**在0.01显著性水平拒绝H0,接受H1201.0)(df201.0)(df205.0)(df205.0)(df例2:大学某系54位老年教师中,健康状况属于好的有15人,中等的有23人,差的有16人。问该校老年教师健康状况好、中、差的人数比例是否为1:2:1?1.提出假设H0:健康状况好、中、差的人数比例是1:2:1H1:健康状况好、中、差的人数比例不是1:2:12.计算表9-4老年教师健康状况的χ2检验计算表好1513.51.52.250.167中2327.0-4.016.00.593差1613.52.56.250.463总和54541.22ofefeoff2eoffeeofff23.统计决断查χ2值表,当df=k-1=2时99.5205.0)2(计算结果为:χ2=1.22χ2=1.22<5.99,则P0.05结论:理论频数与实际频数差异不显著,表明该校老年教师健康状况的人数比例是1:2:1。四.χ2的连续性校正当df=1时,其中只要有一个组的理论频数小于5,就要运用亚茨(Yates)连续性校正法,计算公式为:eefff2025.0(9.2)例3:历年优秀学生干部中男女比例为2:8,今年优秀学生干部中有3个男生,7个女生。问今年优秀学生干部的性别比例与往年是否有显著差异?1.提出假设H0:今年优秀学生干部的性别比例与往年没有显著差异H1:今年优秀学生干部的性别比例与往年有显著差异2.计算表9-5学生干部性别比例的χ2检验计算表男3210.50.250.125女78-10.50.250.031总和10100.156ofefeoff5.00eff自由度为:df=k-1=125.0eoff20.5oeefff3.统计决断查χ2值表,当df=1时84.3205.0)1(计算结果为:χ2=0.156χ2=0.156<3.84,则P0.05结论:优秀学生干部中的性别比例与往年一样。五.频数分布正态性的χ2检验实际应用中,常常需要对一组数据的分布是否符合正态的情况进行检验。除了用累积分布曲线的形状和皮尔逊的经验公式进行大致判断之外,对实际频数分布与理论频数的分布是否一致的χ2检验是对数据分布形态进行检验的比较精确和可靠的方法。频数分布正态性检验的基本思路将待检验的一组数据列成次数分布表。根据次数分布表的分组界限,计算出该组数据正态分布情况下的理论频数。对实际频数与理论频数是否一致进行χ2检验。思考:如何计算各组的理论频数?频数分布正态性检验的计算要点⑴.将次数分布表中各分组区间的上、下限转换成标准分数Z值;⑵.根据各组上、下限Z值查表,寻找Z=0至各组上、下限Z值之间的面积;⑶.求各组的面积(即概率)。计算中应注意Z值的正、负号。⑷.将各组的面积与总频数相乘,求出各组的理论频数。计算理论频数时,两端若有任何一组的理论频数小于5,需要将这组的理论频数与相邻组的理论频数合并。如果合并后仍然小于5,可再合并,直至大于5为止。⑸.根据计算出的理论频数与表中的实际频数,计算各组的χ2值,并将各组χ2值相加,得到最终的χ2值。(注意:自由度为df=k-3)例见教材P134例题:第二步:计算χ2值因为根据零假设,则男女生的理论频数为:12118411063ef()2111841533ef()08.4535341106106118222)()(第三步:统计决断根据df=2-1=1查χ2值表(附表6),得84.320501。)(63.620101。)(因为χ2=4.08*3.84,p0.05,按照统计决断的一般规则,则应拒绝零假设,因此其结论为:今年升学的男女生人数比例不符合该校长的经验。例2有人在某班进行了一项调查,问52名学生:“你喜欢思想品德课吗?”回答有“喜欢”、“无所谓”和“不喜欢”三种,调查结果如下,问3种意见的人数是否不同?喜欢无所谓不喜欢N281311520f解:在这里需要检验各分类之间有没有差异,先假设各项分类的频数相等,因此各项分类的理论频数为:5217.333eNfK96.933.17)33.1711(33.1733.171333.1733.17282222)()(根据df=K-1=2查附表6,得99.520502。)(21.920102。)(再将实际计算得的χ2值与临界值比较。因为χ2=9.96**9.21,p0.01,因此应拒绝零假设,其结论为:该班学生对思想品德课的3种意见之间有极其显著的差异。例3大量的研究表明,人群中超常儿童的比率为3%。最近有人对某班54名学生做了一项智力测查,结果发现有两名学生的智力属于超常,问该班超常儿童的比率与普通人群中超常儿童的比率是否相同?解:根据题目中给出的数据列表:超常非超常N1.622.0052.3852.0054ef0f根据自由度df=1查附表6,得210.053.84()2(1)0.016.63因为20.0093.84,0.05,p所以应保留零假设,即该班超常儿童的比率与普通人群中超常儿童的比率没有显著性差异。第三节双向表的检验把实得的点计数据按两种分类标准分类后所编制成的表就是双向表。对双向表的数据进行的χ2检验,就是双向表的χ2检验,即双因素的χ2检验。在双向表的χ2检验中,如果要判断两种分类特征(即两个因素)之间是否有依从关系,这种检验称为独立性χ2检验。2一、r×c表的卡方检验如果把双向表的横行所分的组数用r表示,把纵列所分的组数用c表示,则双向表的χ2检验也称r×c表的卡方检验。如对于同一批学生,既把他们按学习成绩分成优良中差,又把他们按性别分成男女,这里r=4,c=2,若对所获数据进行χ2检验,就是4×2的χ2检验。例:教科书P136二、四格表的卡方检验四格表的χ2检验,就是最简单的双向表即22表的χ2检验,其基本步骤和方法与r×c表的卡方检验相同。1、各组理论次数都大于5的情况2、某组理论次数小于5的情况(一)、独立样本四格表的卡方检验四格表独立样本,即从总体中随机取样,然后按两个因素对个体进行分类,将调查或实验结果分别填入四个格内,便得到独立样本四格表。独立样本四格表的χ2检验,它既可以用χ2检验的基本公式来计算χ2值,又可以用缩减公式来计算χ2值。及格不及格总和男aba+b女cdc+d总和a+cb+dN(二)、相关样本四格表的卡方检验所谓相关样本,是指同一组被试在前后两次实验或调查中的两个项目相同,这时前后两次结果相互影响,而不独立,这样的四格表称为相关的四格表。例:124名学生参加长跑训练,训练一个月前后两次测验的结果如下表,问一个月的训练是否有显著效果?第二次测验达标未达标第一次测验达标61(a)19(b)未达标33(c)11(d)•检验的步骤;(1)提出假设•H0:一个月长跑训练无显著效果•H1:一个月长跑训练有显著效果(2)计算检验统计量将表中数据代入公式,则22(1933)19333.77•按照统计决断规则(表7.1),应在0.05水平上保留零假设,拒绝备择假设。其结论为:一个月长跑训练无显著效果2(1)0.053.84,(3)统计决断根据df=1,查附表6,找到由于计算出的2=3.773.84,0.05p2.校正χ2值的计算在相关样本四格表中,如果(b+c)30或(b+c)50(即要求比较严格),则要对χ2值进行亚茨连续性校正。其校正公式为:cbcb22)1(•例:某校将参加课外阅读活动的14个学生与未参加此种活动的14个学生,根据各方面条件基本相同的原则进行配对,测得他们的阅读理解成绩如下表,问课外阅读活动对提高阅读理解能力是否有良好的作用。谢谢!