第三章统计案例3.2独立性检验的基本思想及其初步应用[学习目标]1.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用(重点、难点).2.会判断两个分类变量是否有关系(重点).3.能够根据题目所给数据列出2×2列联表及求K2的观测值(重点、难点).1.分类变量与2×2列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①列出的两个分类变量的频数表,称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为2×2列联表)如下表所示:YXy1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2.等高条形图等高条形图与表格相比,更能直观地反映出两个分类变量间是否互相影响,常用等高条形图展示列联表数据的频数特征.3.独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.1.思考判断(正确的打“√”,错误的打“×”).(1)K2独立性检验的统计假设是各事件之间相互独立.()(2)K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”.()(3)2×2列联表中的4个数据可以是任意正数.()解析:(1)对,由独立性检验的检验步骤可知该说法正确.(2)错,K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的把握说他们相关,或者说有一定的出错率.(3)错,2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系.答案:(1)√(2)×(3)×2.在2×2列联表中,下列哪两个比值相差越大,两个分类变量之间的关系越强()A.aa+b与cc+dB.ac+d与ca+bC.aa+b与cb+cD.ab+d与ca+c解析:aa+b与cc+d相差越大,说明ad与bc相差越大,两个分类变量之间的关系越强.答案:A3.给出下列实际问题:①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟人群是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中,用独立性检验可以解决的问题有()A.①②③B.②④⑤C.②③④⑤D.①②③④⑤解析:独立性检验主要是对两个分类变量是否有关系进行检验,主要涉及两种变量对同一种事物的影响,或者是两种变量在同一问题上体现的区别等.答案:B4.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如下表所示:分类死亡存活总计第一种剂量141125第二种剂量61925总计203050进行统计分析时的统计假设是_________________.解析:根据假设性检验的概念知,应“假设电离辐射的剂量与人体受损程度无关”.答案:假设电离辐射的剂量与人体受损程度无关5.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关系”的可信度,如果k5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过________.P(K2≥k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706P(K2≥k0)0.050.0250.010.0050.001k03.8415.0246.6357.87910.828解析:因为P(k5.024)=0.025,故在犯错误的概率不超过0.025的前提下,认为“X和Y有关系”.答案:0.025类型1用等高条形图分析两变量间的关系(自主研析)[典例1]某学校对高三学生做了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.解:作列联表如下:性格内向外向总计紧张332213545不紧张94381475考前心情总计4265941020图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类型有关.归纳升华1.利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.2.一般地,在等高条形图中,aa+b与cc+d相差越大,两个分类变量有关系的可能性就越大.[变式训练]右图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的比例,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%解析:本题考查学生的识图能力,从图中可以分析,男生喜欢理科的可能性比女生大一些.答案:C类型2独立性检验[典例2]为了探究学生选报文、理科是否与对外语有兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关.解:列出2×2列联表如下表所示:分类理文总计有兴趣13873211无兴趣9852150总计236125361代入公式得K2的观测值k=361×(138×52-73×98)2236×125×211×150≈1.87×10-4.因为1.87×10-4<2.706,故可以认为学生选报文、理科与对外语的兴趣无关.[迁移探究]把本例条件“理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.”换成“理科对外语有兴趣的有100人,无兴趣的有136人,文科对外语有兴趣的有93人,无兴趣的有32人.”试分析能否在犯错误的概率不超过0.001的前提下,认为学生选报文科、理科与对外语的兴趣有关.解:根据题目所给的数据得到如下列联表:对外语是否有兴趣理科文科总计有兴趣10093193无兴趣13632168总计236125361根据列联表中数据,再由公式计算得k=361×(100×32-136×93)2193×168×236×125≈33.690.因为33.69010.828,所以,在犯错误的概率不超过0.001的前提下,可以认为“学生选报文科,理科与对外语的兴趣有关”.归纳升华解独立性检验问题的基本步骤1.认真审题,指出相关数据,得出2×2列联表.2.根据2×2列联表中的数据,计算K2的观测值k.3.将观测值k与临界值k0进行比较.4.得出结论:在犯错误的概率不超过α的前提下能否推断“X与Y有关系”.类型3独立性检验的综合应用(规范解答)[典例3]某校为了探索一种新的教学模式,进行了一项课题实验,乙班为实验班,甲班为对比班,甲、乙两班均有50人,一年后对两班进行测试,成绩分别如表1和表2所示(总分:150分):表1成绩[80,90)[90,100)[100,110)[110,120)[120,130)频数42015101表2成绩[80,90)[90,100)[100,110)[110,120)[120,130)频数11123132(1)现从甲班成绩位于[90,120)内的试卷中抽取9份进行试卷分析,用什么抽样方法更合理?并写出最后的抽样结果.(2)根据所给数据可估计在这次测试中,甲班的平均分是101.8,请你估计乙班的平均分,并计算两班平均分相差几分.(3)完成下面2×2列联表,你认为在犯错误的概率不超过0.025的前提下,“这两个班在这次测试中成绩的差异与实施课题实验有关”吗?并说明理由.班级成绩小于100分成绩不小于100分总计甲班a=2650乙班12d=50总计3664100[审题指导](1)由三组数据存在差异确定抽样方法,计算抽样比,确定各区间抽取份数;(2)累加各组的组中值与频率的积,计算乙班的平均分,进而得到两班的平均分的差;(3)根据已知数据得到2×2列联表,求出K2的观测值k,对照临界值表得出对应的概率的值.[规范解答](1)用分层抽样的方法更合理.甲班成绩位于[90,120)内的试卷共有20+15+10=45(份),从中抽取9份,抽样比为945=15,故在[90,100),[100,110),[110,120)各分数段内抽取试卷20×15=4(份),15×15=3(份),10×15=2(份).(2)估计乙班的平均分为x乙=85×150+95×1150+105×2350+115×1350+125×250=105.8,105.8-101.8=4,即两班的平均分差4分.(3)补全列联表如下:班级成绩小于100分成绩不小于100分总计甲班a=242650乙班12d=3850总计3664100-由列联表中的数据,得K2的观测值为k=100×(24×38-26×12)236×64×50×50=6.25>5.024,所以在犯错误的概率不超过0.025的前提下,认为“这两个班在这次测试中成绩的差异与实施课题实验有关.”归纳升华(1)独立性检验在实际中有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.(2)近几年高考中较少单独考查独立性检验,经常与统计、概率等知识综合,频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式,一般需要根据条件列出2×2列联表,计算K2的观测值,从而解决问题.[类题尝试]某高校共有学生15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别的列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“该校学生的每周平均体育运动时间与性别有关”.P(K2≥k0)0.100.050.0100.005k02.7063.8416.6357.879附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)300×450015000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时,又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:分类男生女生总计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225总计21090300结合列联表可算得K2的观测值k=300×(45×60-30×165)275×225×210×90=10021≈4.7623.841,所以能在犯错误的概率不超过0.05的前提下认为“该校学生的每周平均体育运动时间与性别有关”.1.等高条形图可以粗略地判断两个分类变量是否有关系,这种判断无法精确地给出所得结论的可靠程度.2.在判断两个分类变量关系的可靠性时一般利用随机变量K2来确定,把计算出的K2的值与相关的临界值