自学导引1.2×2列联表(1)分类变量:变量的不同“值”表示个体所属的________,这类变量称为分类变量.不同类别(2)2×2列联表.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d像上表这样列出的两个分类变量的________称为列联表.在列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0.因此|ad-bc|越小,说明两个分类变量之间关系越弱;|ad-bc|越大,说明两个分类变量之间关系越强.频数表2.独立性检验为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K2=____________________________,其中n=______________为样本容量.像这种利用随机变量________来判断两个分类变量________的方法称为独立性检验.nad-bc2a+bc+da+cb+da+b+c+dK2有关系自主探究1.如何理解分类变量?【答案】(1)这里的“变量”和“值”都应作为“广义”的变量和值来理解.例如,对于性别变量,其取值有“男”和“女”两种,这里的“变量”指的是“性别”,这里的“值”指的是“男”或“女”.因此,这里说的“变量”和“值”不一定是取具体的数值.(2)在现实生活中,分类变量是大量存在的.例如,吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.2.反证法与独立性检验有什么区别?【答案】(1)反证法原理——在假设H0下,如果推出一个矛盾,就证明了H0不成立.(2)独立性检验原理——在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立且该推断犯错误的概率不超过小概率.预习测评1.对两个分类变量A,B的下列说法中,正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.1B.2C.3D.0【答案】A2.在列联表中,哪两个比值相差越大,两个分类变量之间的关系越强()A.aa+b与cc+dB.ac+d与ca+bC.aa+d与cb+cD.ab+d与ca+c【答案】A【解析】∵aa+b-cc+d=|ad-bc|a+bc+d,∴aa+b与cc+a相差越大,关系越强.3.独立性检验所采用的思路是:要研究A,B两类型变量彼此相关,首先假设这两类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.无关不成立4.给出2×2列联表如下表所示:BAB1B2总计A198①123A289②③总计④41⑤试根据表格填空:(1)①______________;②____________;③______________;④______________;⑤______________;(2)A与B______________(填“独立”或“不独立”).2516105187228独立要点阐释1.独立性检验的基本思想利用随机变量K2来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验,独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理.2.判断两变量间是否有关系的方法(1)二维条形图利用二维条形图,可以粗略地判断两个变量之间是否有关系(但这种判断无法精确地给出所得结论的可靠程度),方法如下:在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.这两个比例的值相差越大,有关系的可能性就越大.(2)独立性检验(精确判断)具有实施步骤如下:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查下表确定临界值k0.P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828②利用随机变量K2的计算公式,求K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α.否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.通常认为k≤2.706时,样本数据就没有充分的证据显示“X与Y有关系”.典例剖析题型一用等高条形图判断两个分类变量的相关性【例1】在500人身上试验某种血清预防感冒的作用,把一年中的记录与另外500个未用血清的人作比较,结果如下:未感冒感冒合计试验252248500未试验224276500合计4765241000试用等高条形图分析血清是否能起到预防感冒的作用.思路点拨:由列联表画出等高条形图,并进行分析,再利用独立性检验作出判断.解:根据列联表中所给的数据作出等高条形图,如图所示.假设血清与预防感冒有关,则从画出的等高条形图可以看出,试验的个体中感冒的个体所占的比例为0.496,未试验的个体中感冒的个体所占的比例为0.552,两者的差别是|0.496-0.552|=0.056,两者相差太小,因而血清对预防感冒有关系的假设不成立,从而看出血清对预防感冒的作用不够明显,也就是说血清对预防感冒几乎没有作用.1.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示:晕机不晕机合计男性243155女性82634合计325789据此资料,你是否认为在恶劣气候飞行中男性比女性更容易晕机?解:根据列联表中所给的数据作出等高条形图,如图所示.假设晕机与性别有关,则从画出的等高条形图中我们可以看出:男乘客中晕机所占的比例约为0.436,女乘客中晕机所占的比例约为0.235,两者的差是|0.436-0.235|=0.201,差值较大,因而我们可以认为晕机与男女性别是有关的.题型二独立性检验【例2】某聋哑研究机构对聋哑关系进行抽样调查,在耳聋的657人中有416人哑,而另外不聋的680人中有249人哑.你能运用这组数据得出相应的结论吗?思路点拨:先列出2×2列联表,再计算K2的值,运用独立性检验得出结论.解:根据题目所给数据得到如下列联表:哑不哑合计聋416241657不聋249431680合计6656721337根据列联表中数据得到K2=1337×416×431-249×2412665×672×657×680≈95.2910.828.所以我们可以在犯错误的概率不超过0.001的前提下说聋哑有关系.2.某大型企业人力资源部为了研究企业员工工作态度和对待企业改革态度的关系,经过调查得到如下列联表:积极支持企业改革不太支持企业改革总计工作积极544094工作一般326395总计86103189根据列联表的独立性检验,能否在犯错误的概率不超过0.005的前提下,认为工作态度与对待企业改革态度之间有关系?解:由列联表中的数据,得K2的观测值为k=189×54×63-40×32294×95×86×103≈10.7597.879.因此,在犯错误的概率不超过0.005的前提下,认为工作态度与对待企业改革态度之间有关系.题型三独立性检验的综合应用【例3】某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用图形判断监督员甲在或不在生产现场对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在或不在生产现场与产品质量好坏有关系?思路点拨:首先作出数据的列联表,再由列联表画出条形图,并计算K2的值,最后运用独立性检验得出结论.解:根据题目所给数据得如下2×2列联表:合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1475251500相应的等高条形图如图所示:图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率.因此可以认为质量监督员甲在或不在生产现场与产品质量好坏有关系.由列联表中的数据,得K2的观测值为k=1500×982×17-8×4932990×510×1475×25≈13.09710.828.因此,在犯错误的概率不超过0.001的前提下,认为质量监督员甲在或不在生产现场与产品质量好坏有关系.方法点评:利用图形来判断两个变量之间是否有关系,可以画出等高条形图,仅从图形上只可以粗略地估计两个分类变量的关系,可以结合所求的数值来进行比较.作图应注意单位统一,图形准确.但图形不能给我们两个分类变量是否有关的精确判断,若要作出精确的判断,还应作独立性检验的有关计算.3.为研究司机血液中含有酒精与对事故负有责任是否有关系,从死于汽车碰撞事故的司机中随机抽取2000名司机,得到如下列联表:有责任无责任总计有酒精650150800无酒精7005001200总计13506502000试利用图形分析司机血液中含有酒精与对事故负有责任是否有关系.根据列联表的独立性检验,能否在犯错误的概率不超过0.001的前提下认为二者有关系?解:相应的等高条形图如下图所示.图中两个深色条的高分别表示司机血液中有酒精和无酒精样本中对事故负有责任的频率.从图中可以看出,司机血液中有酒精样本中对事故负有责任的频率明显高于司机血液中无酒精样本中对事故负有责任的频率.由此可以认为司机血液中含有酒精与对事故负有责任有关系.由列联表中的数据,得K2的观测值为k=2000×650×500-150×7002800×1200×1350×650≈114.91010.828.因此,在犯错误的概率不超过0.001的前提下,认为司机血液中含有酒精与对事故负有责任有关系.误区解密公式记忆不准确,计算错误【例4】为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联表:药物效果试验列联表患病未患病服用药1045没服用药2030请问有多大把握认为该药有效?错解:k=105×10×45-20×30255×50×30×75≈0.38180.455,∴在犯错误的概率大于0.5的前提下认为该药有效.错因分析:K2=nad-bc2a+bc+da+cb+d,而错解中误将(ad-bc)2用成(ab-cd)2.正解:k=105×10×30-20×45255×50×30×75≈6.115.024,∴在犯错误的概率不超过0.025的前提下认为该药物有效.纠错心得:在判断两个分类变量的可信程度时要特别注意计算的准确度,准确代数、准确计算、准确比较、准确下结论.课堂总结1.所谓独立性检验,就是根据采集样本的数据,先利用等高条形图粗略判断两个分类变量是否有关系,再利用公式计算K2的值,比较与临界值的大小关系,来判定事件x与y是否无关的问题.2.根据事件的相互独立检验,可用公式P(AB)=P(A)·P(B)检验两分类变量有没有关系.3.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但这种判断无法精确地给出所给结论的可靠程度.在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d,两个比例的值相差越大,x与y有关系成立的可能性就越大.4.在2×2列联表独立性检验中,随机变量K2的观测值k=nad-bc2a+bc+da+cb+d可以确定“x与y有关系”的可信程度.应熟记下表:P(K2≥k)0.100.050.0250.0100.0050.001k2.7063.8415.0246.6357.87910.828以