第三章统计案例3.2独立性检验的基本思想及其初步应用第三章统计案例考点学习目标核心素养利用图形与分类变量间的关系作出分析了解分类变量的意义,了解2×2列联表的意义,会用等高条形图与2×2列联表反映两个分类变量之间是否有关系数据分析独立性检验通过对典型案例分析,能知独立性检验的基本思想和方法数据分析、数学建模问题导学预习教材P91~P96的内容,并思考下列问题:1.分类变量与列联表分别是如何定义的?2.独立性检验的基本思想是怎样的?3.独立性检验的常用方法有哪些?1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的__________,像这样的变量称为分类变量.不同类别(2)列联表①定义:列出的两个分类变量的________称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为_________和__________,其样本频数列联表(也称为2×2列联表)为下表.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d频数表{x1,x2}{y1,y2}■名师点拨对2×2列联表的理解(1)2×2列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础.(2)表中|ad-bc|越小,两个变量之间的关系越弱;|ad-bc|越大,两个变量之间的关系越强.2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否__________,常用等高条形图展示列联表数据的__________.(2)观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间________.相互影响频率特征有关系3.独立性检验(1)定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=________________________________________,其中n=a+b+c+d为样本容量.n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定________k0.②利用公式计算随机变量K2的________k.③如果_______,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则,就认为在______________不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中_____________________支持结论“X与Y有关系”.临界值观测值犯错误的概率没有发现足够证据k≥k0■名师点拨独立性检验的基本思想与反证法的思想的相似之处反证法独立性检验要证明结论A要确认“两个分类变量有关系”在A不成立的前提下进行推理假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下计算K2判断正误(正确的打“√”,错误的打“×”)(1)列联表中的数据是两个分类变量的频数.()(2)对事件A与B的独立性检验无关,即两个事件互不影响.()(3)K2的大小是判断事件A与B是否相关的统计量.()√×√为直观判断两个分类变量X和Y之间是否有关系,设它们的取值分别为{x1,x2}和{y1,y2},通过抽样得到频数表为:y1y2x1abx2cd则下列哪两个比值相差越大,可判断两个分类变量之间的关系应该越强()A.aa+c与bb+dB.aa+d与cb+cC.ab+d和ca+cD.ac+d和ca+b解析:选A.因为K2=(a+b+c+d)(ad-bc)2(a+c)(b+d)(a+b)(c+d),所以当K2的值越小说明两个分类变量之间有关系的把握程度越小,反之,当K2的值越大说明两个分类变量之间有关系的把握程度越大,即两个分类变量之间的关系应该越强,aa+c-bb+d=ad-bc(a+c)(b+d),则aa+c与bb+d的值相差越大,可判断两个分类变量之间的关系应该越强.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的比例,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%解析:选C.从图中可以分析,男生喜欢理科的可能性比女生大一些.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X和Y有关系”的可信度,如果k5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过()P(K2≥k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706P(K2≥k0)0.050.0250.010.0050.001k03.8415.0246.6357.87910.828A.0.25B.0.75C.0.025D.0.975解析:选C.因为P(k5.024)=0.025,故在犯错误的概率不超过0.025的前提下,认为“X和Y有关系”.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?等高条形图的应用【解】等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.(1)判断两个分类变量是否有关系的两种常用方法①利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.②一般地,在等高条形图中,aa+b与cc+d相差越大,两个分类变量有关系的可能性就越大.(2)利用等高条形图判断两个分类变量是否相关的步骤某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.解:根据题目所给数据得如下2×2列联表:合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1475251500所以ad-bc=982×17-8×493=12750,|ab-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高条形图如图所示:图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?独立性检验解:根据题目所给的数据得到如下列联表:理科文科总计有兴趣13873211无兴趣9852150总计236125361根据列联表中数据由公式计算得k=361×(138×52-73×98)2211×150×236×125≈1.871×10-4.因为1.871×10-42.706,所以,在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.1.(变条件)把本例条件“理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.”换成“理科对外语有兴趣的有100人,无兴趣的有136人,文科对外语有兴趣的有93人,无兴趣的有32人.”其他条件不变,再求解该问题.解:根据题目所给的数据得到如下列联表:理科文科总计有兴趣10093193无兴趣13632168总计236125361根据列联表中数据由公式计算得k=361×(100×32-136×93)2193×168×236×125≈33.690.因为33.6902.706,所以,在犯错误的概率不超过0.1的前提下,可以认为“学生选报文、理科与对外语的兴趣有关”.2.(变结论)在上述探究中能否在犯错误的概率不超过0.001的前提下,认为“学生选报文、理科与对外语的兴趣有关”?解:由上述探究可知k=33.69010.828,故在犯错误的概率不超过0.001的前提下,可以认为“学生选报文、理科与对外语的兴趣有关”.解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表.(2)作出相应的等高条形图,可以利用图形做出相应判断.(3)求K2的观测值.(4)判断可能性:与临界值比较,得出事件有关的可能性大小.某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:优秀非优秀总计一班3513二班1725总计(1)请完成列联表;(2)根据列联表的数据,能否在犯错误的概率不超过0.005的前提下认为推广新课改与总成绩是否优秀有关系?参考数据:P(K2≥k0)0.150.100.050.0250.0100.005k02.0722.7063.8415.0246.6357.879K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)优秀非优秀总计一班351348二班172542总计523890(2)根据列联表中的数据,得到K2的观测值k=90×(35×25-13×17)248×42×52×38≈9.667.879,则说明能在犯错误的概率不超过0.005的前提下认为推广新课改与总成绩是否优秀有关系.1.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是()A.频率分布直方图B.回归分析C.独立性检验D.用样本估计总体解析:选C.根据题意,结合题目中的数据,列出2×2列联表,求出K2的观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验.2.如表是一个2×2列联表:则表中a,b的值分别为()y1y2总计x1a2173x2222547总计b46120A.94,72B.52,50C.52,74D.74,52解析:选C.a=73-21=52,b=a+22=52+22=74.3.为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是()A.药物B的预防效果优于药物A的预防效果B.药物A的预防效果优于药物B的预防效果C.药物A,B对该疾病均有显著的预防效果D.药物A,B对该疾病均没有预防效果解析:选B.从等高条形图可以看出,服用药物A后未患病的比例比服用药物B后未患病的比例大得多,预防效果更好.4.分类变量X和Y的列表如下,则下列说法判断正确的是_______.(填序号)y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d①ad-bc越小,说明X与Y的关系越弱;②ad-bc越大,说明X与Y的关系越强;③(ad-bc)2越大,说明X与Y的关系越强;④(ad-bc)2越接近于0,说明X与Y的关系越强.解析:列联表可以较为准确地判断两个变量之间的相关关系程度,由K2=(a+b+c+d)(ad-bc)2(a+b)(a+c)(b+d)(c+d),当(ad-bc)2越大,K2越大,表明X与Y的关系越强.(ad-bc)2越接近0,说明两个分类变量X和Y无关的可能性越大.即所给说法判断正确的是③.答案:③