第三章统计案例3.2独立性检验的基本思想及其初步应用学习目标核心素养1.理解独立性检验的基本思想及其实施步骤.(重点)2.能利用条形图、列联表探讨两个分类变量的关系.(易混点)3.了解K2的含义及其应用.(重点)4.通过对数据的处理,来提高解决实际问题的能力.(难点)1.通过学习独立性检验的基本思想提升逻辑推理的素养.2.借助k2公式培养数学运算的素养.3.借助条形图培养直观想象的素养.自主预习探新知1.分类变量及2×2列联表(1)分类变量变量的不同“值”表示个体所属的__________,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的________,称为列联表.不同类别频数表②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2.等高条形图(1)等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否__________,常用等高条形图展示列联表数据的______特征.(2)观察等高条形图发现_______和_______相差很大,就判断两个分类变量之间有关系.相互影响频率aa+bcc+d3.独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=________________________,其中n=____________.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定_________.nad-bc2a+bc+da+cb+da+b+c+d临界值k0②利用公式计算随机变量K2的_________.③如果_______,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在_______________不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中__________________支持结论“X与Y有关系”.观测值k犯错误的概率没有发现足够证据k≥k0思考:有人说:“我们有99%的把握认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?[提示]观点不正确.99%的把握说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.B[“吸烟”不是分类变量,“是否吸烟”才是分类变量.故选B.]1.下列变量中不属于分类变量的是()A.性别B.吸烟C.宗教信仰D.国籍52,60[∵a+21=73,∴a=52.b=a+8=52+8=60.]2.下面是一个2×2列联表:y1y2总计x1a2173x282533总计b46则表中a,b处的值分别为________.4.514[k=300×37×143-85×352122×178×72×228≈4.514.]3.根据下表计算:不看电视看电视男3785女35143K2的观测值k≈________(保留3位小数).合作探究提素养用2×2列联表分析两变量间的关系【例1】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用aa+b与cc+d判断二者是否有关系.[解]2×2列联表如下:年龄在六十岁以上年龄在六十岁以下总计饮食以蔬菜为主432164饮食以肉类为主273360总计7054124将表中数据代入公式得aa+b=4364=0.671875.cc+d=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.1.作2×2列联表时,关键是对涉及的变量分清类别.注意应该是4行4列,计算时要准确无误.2.利用2×2列联表分析两变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa+b与cc+d或ba+b与dc+d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.1.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:y1y2x11018x2m26则当m取下面何值时,X与Y的关系最弱()A.8B.9C.14D.19C[由10×26=18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.]用等高条形图分析两变量间的关系【例2】为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?[解]等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.利用等高条形图判断两个分类变量是否相关的步骤2.如图所示的是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()C[由题图可知女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.故选C.]A.性别与喜欢理科无关B.女生中喜欢理科的比例约为80%C.男生比女生喜欢理科的可能性大些D.男生中不喜欢理科的比例约为60%由K2进行独立性检验[探究问题]1.在K2运算后,得到K2的值为29.78,在判断变量相关时,P(K2≥6.635)≈0.01和P(K2≥7.879)≈0.005,哪种说法是正确的?[提示]两种说法均正确.P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(K2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.2.你能说一下用K2进行独立性检验的依据吗?[提示]独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.【例3】随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n个人,其中男性占调查人数的25.已知男性中有一半的人的休闲方式是运动,而女性中只有13的人的休闲方式是运动.(1)完成下列2×2列联表:运动非运动总计男生女生总计n(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?[思路点拨](1)依据2×2列联表的定义填表;(2)计算K2,利用临界值建立不等关系,求n的值.[解](1)补全2×2列联表如下:运动非运动总计男性15n15n25n女性15n25n35n总计25n35nn(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,则P(K2≥k0)≈3.841.由于K2的观测值k=nn5·2n5-n5·n522n5·3n5·2n5·3n5=n36,故n36≥3.841,即n≥138.276.又由15n∈Z,故n≥140.故若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的至少有140人.1.(变结论)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动?[解]根据(2)的结论,本次被调查的人中,至少有25×140=56(人)的休闲方式是运动.2.(变条件)若增加条件n=100,问能否在犯错误不超过0.1的前提下,可认为“性别与休闲方式有关”?[解]由(2)可知,当n=100时,K2的观测值k=10036≈2.782.706.故在犯错误不超过0.1的前提下,我们可以认为性别与休闲方式有关.解决一般的独立性检验问题的步骤独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2统计量法:通过公式k=nad-bc2a+bc+da+cb+d.先计算观测值k,再与临界值表作比较,最后得出结论.当堂达标固双基[答案](1)√(2)√(3)×1.判断(正确的打“√”,错误的打“×”)(1)在独立性检验中,若K2越大,则两个分类变量有关系的可能性越大.()(2)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联关系.()(3)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的.()2.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是()A.100个心脏病患者中至少有99人打鼾B.1个人患心脏病,则这个人有99%的概率打鼾C.100个心脏病患者中一定有打鼾的人D.100个心脏病患者中可能一个打鼾的人都没有D[这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.](4)[在四幅图中图(4)中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选(4).]3.观察下列各图,其中两个分类变量x,y之间关系最强的是________.4.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品总计南方学生602080北方学生101020总计7030100根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.[解]将2×2列联表中的数据代入公式计算,得k=nad-bc2a+bc+da+cb+d=100×60×10-20×10270×30×80×20=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.