第三章统计案例3.2独立性检验的基本思想及其初步应用梳理知识夯实基础自主学习导航1.了解独立性检验的基本思想及随机变量K2的含义.2.会根据独立性检验的基本思想判断两个分类变量的关系.‖知识梳理‖1.(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为__________.(2)用图表列出两个分类变量的频数表,称为__________.(3)与表格相比,__________更能直观地反映出两个分类变量间是否相互影响,常用____________展示列联表数据的频率特征.分类变量列联表图形等高条形图2.(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为两个分类变量的____________.(2)独立性检验的基本思想类似于反证法.要判断“两个分类变量有关系”,首先假设结论不成立,即______________________________成立,在该假设下构造的随机变量K2应该__________,如果由观测数据计算得到的K2的观测值k很大,则断言__________,即认为“两个分类变量有关系”;如果观测值k__________,则说明在样本数据中没有发现足够证据拒绝H0.独立性检验H0:“两个分类变量没有关系”很小H0不成立很小(3)一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2},{y1,y2},其样本频数列联表如下:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d通过K2=________________________的观测值来判断X与Y的关系.nad-bc2a+bc+da+cb+d解剖难点探究提高重点难点突破独立性检验是数理统计的一种方法,是数学中的一种基本理论,是数学体系中对数据关系进行探索的一种基本思想.判断两个分类变量是否相关可以通过等高条形图进行粗略判断,也可以通过独立性检验来考察两个分类变量是否有关系,利用公式K2=nad-bc2a+bc+da+cb+d计算出随机变量K2的观测值k,通过查表确定临界值k0.若kk0说明X与Y有关系,否则没有关系.归纳透析触类旁通课堂互动探究题型一2×2列联表在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,请根据题目的条件列出2×2列联表并由列联表估计色盲与性别是否有关.【思路探索】根据性别与患不患色盲列出列联表.【解】根据题目所给的数据作出如下列联表:色盲不色盲合计男38442480女6514520合计449561000∵3838+442=38480=19240,66+514=6520=3260,显然192403260且两个比例的值相差较大,故可以粗略地估计患不患色盲与性别有关.[名师点拨]利用2×2列联表中满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,与满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d,两个比例的值相差越大,X与Y有关的可能性就越大.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:每年体检每年未体检合计老年人a7c年轻人6bd合计ef50已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是()A.a=18B.b=19C.c+d=50D.f-e=1解析:因为a+7=c=25,6+b=d=25,a+6=e,7+b=f,c+d=50,e+f=50,所以a=18,b=19,c+d=50,e=24,f=26,f-e=2,故选D.答案:D题型二独立性检验某学校发现有大批学生不进行正常午休,于是开始对学生进行正确教育,并施行了一些奖罚措施,但是仍有些学生不能正常午休,教师进行谈话教育时这些学生总能找到许多理由,如“不午休不影响我的学习,不午休是我多年的习惯,我下午、晚上精力仍然很充沛\”等等,使教师的说服教育效果很差,于是一位数学老师就对一次数学考试成绩进行了如下的统计(数据如下表).单位:人分数段午休不午休29~40231741~50475151~59306760~70211571~80143091~90311791~100143那么请你利用这些数据统计分析来说明午休与学习成绩的关系.附表:P(K2≥k0)0.0500.0250.001k03.8415.0246.635【思路探索】列出列联表,求出K2的观测值,再分析变量之间的关系.【解】首先我们可以把考试成绩分成两个方面,及格与不及格,完成列联表:单位:人及格不及格合计午休80100180不午休65135200合计145235380这时通过表格会发现午休学生的及格率P1=80180=49,不午休学生的及格率P2=65200=1340,显然P1P2,那么说明午休与学习成绩有关,又K2=380×80×135-65×1002180×200×145×235≈5.72775.024.所以在犯错误的概率不超过0.025的前提下认为午休可以提高学习成绩.因此我们的结论是:适当午休有助于保持我们良好的学习状态,提高我们的学习成绩.[名师点拨]在判断两个分类变量关系的可靠性时一般利用随机变量K2来确定,再把计算出的K2的值与相关的临界值比较,确定出X与Y是否有关系.为庆祝冬奥会申办成功,随机调查了500名性别不同的大学生是否爱好某项冬季运动,提出假设H:“爱好这项运动与性别无关”,利用2×2列联表计算的K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05,则下列表述中正确的是()A.有95%的把握认为“爱好这项运动与性别有关”B.有95%的把握认为“爱好这项运动与性别无关”C.在犯错误的概率不超过0.5%的前提下,认为“爱好这项运动与性别有关”D.在犯错误的概率不超过0.5%的前提下,认为“爱好这项运动与性别无关”答案:A题型三独立性检验的综合应用(2019·福州质量检测)中国房地产业协会主办的中国房价行情网调查的一份数据显示,2018年7月,大部分一线城市的房租租金同比涨幅都在10%以上.某部门研究成果认为,房租支出超过月收入13的租户“幸福指数”低,房租支出不超过月收入13的租户“幸福指数”高.为了了解甲、乙两小区租户的幸福指数高低,随机抽取甲、乙两小区的租户各100户进行调查.甲小区租户的月收入以[0,3),[3,6),[6,9),[9,12),[12,15](单位:千元)分组的频率分布直方图如图所示.乙小区租户的月收入(单位:千元)的频数分布表如下:月收入[0,3)[3,6)[6,9)[9,12)[12,15]户数38272492(1)设甲、乙两小区租户的月收入相互独立,记M表示事件“甲小区租户的月收入低于6千元,乙小区租户的月收入不低于6千元”,把频率视为概率,求M的概率;(2)利用频率分布直方图,求所抽取的甲小区100户租户的月收入的中位数;(3)若甲、乙两小区每户的月租费分别为2千元、1千元.请根据条件完成下面的2×2列联表,并说明能否在犯错误的概率不超过0.001的前提下认为“幸福指数与租住的小区”有关.幸福指数低幸福指数高总计甲小区租户乙小区租户总计附:临界值表P(K2≥k0)0.100.0100.001k02.7066.63510.828参考公式:K2=nad-bc2a+bc+da+cb+d.【解】(1)记A表示事件“甲小区租户的月收入低于6千元”,记B表示事件“乙小区租户的月收入不低于6千元”,甲小区租户的月收入低于6千元的频率为(0.060+0.160)×3=0.66,故P(A)的估计值为0.66.乙小区租户的月收入不低于6千元的频率为24+9+2100=0.35,故P(B)的估计值为0.35.因为甲、乙两小区租户的月收入相互独立,事件M的概率的估计值为P(M)=P(A)P(B)=0.66×0.35=0.231.(2)设甲小区所抽取的100户的月收入的中位数为t,则0.060×3+(t-3)×0.160=0.5,解得t=5.(3)设H0:幸福指数与租住的小区无关,幸福指数低幸福指数高总计甲小区租户6634100乙小区租户3862100总计10496200根据2×2列联表中的数据,得到K2的观测值k=200×66×62-34×382100×100×104×96≈15.70510.828,所以能在犯错误的概率不超过0.001的前提下认为“幸福指数与租住的小区”有关.“推迟退休”问题备受关注,调查机构对某小区的100位居民进行了调查,得到如下的列联表:支持推迟退休不支持推迟退休合计年龄不大于45岁206080年龄大于45岁101020合计3070100(1)请画出列联表的等高条形图,并通过图形判断两个分类变量是否有关系;(2)根据表中数据,判断是否有95%的把握认为“不同年龄的居民在是否支持推迟退休上观点有差异”.(3)已知在被调查的支持推迟退休且年龄大于45岁的居民中有5位男性,其中2位是一线工人,现从这5位男性中随机抽取3人,求至多有1位一线工人的概率.附:K2=nad-bc2a+bc+da+cb+d,n=a+b+c+dP(K2≥k0)0.1000.0500.0250.010k02.7063.8415.0246.635解:(1)由条形图可判断两个分类变量有关系.(2)将2×2列联表的数据代入公式得K2的观测值k0=nad-bc2a+bc+da+cb+d=100×200-600280×20×30×70=10021≈4.7623.841.所以有95%的把握认为“不同年龄的居民在是否支持推迟退休上观点有差异”.(3)记“从5位男性中随机抽取3人,至多有1位一线工人”为事件A,P(A)=C12C23C35+C33C35=710.即学即练稳操胜券课堂基础达标1.下列关于独立性检验的叙述:①常用等高条形图展示列联表数据的频率特征;②独立性检验依据小概率原理;③样本不同,独立性检验的结论可能有差异;④对分类变量X与Y的随机变量K2的观测值k来说,k越小,X与Y有关系的把握程度就越大.其中正确的个数为()A.1B.2C.3D.4解析:由独立性检验的基本思想,知①②③正确;对分类变量X与Y的随机变量K2的观测值k来说,k越大,X与Y有关系的把握程度就越大,故④错误.故选C.答案:C2.为考察高中生的性别与喜欢数学课程之间的关系,运用2×2列联表进行检验,经计算K2=7.069,参考临界值表,则认为“性别与喜欢数学有关”犯错误的概率不超过()A.0.1%B.1%C.99%D.99.9%解析:∵K2=7.0696.635,∴认为“性别与喜欢数学有关”犯错误的概率不超过1%,故选B.答案:B3.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是()A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系解析:只有K2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.答案:D4.某校学生会为了调查该校学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:不关注关注总计男生301545女生451055总计7525100根据表中数据,若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过______.解析:由题意可得K2的观测值k=100×30×10-15×45275×25×45×55≈3.0302.706.所以可以在出错的概率不超过0.1的前提下,认为“学生对2018年俄罗斯世界杯的关注与性别有关”.答案:0.15.国际奥委会在2017年9月15日在秘鲁利马召开130次会议决定2024年第33届奥运会举办地,目前