数学3.2独立性检验的基本思想及其初步应用数学课标要求学法指导1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.独立性检验的基本思想是统计上的假设检验思想,利用两个分类变量的列联表,构造随机变量K2,K2越大说明两个变量有关系的可能性越大.数学新课导入知识探究题型探究达标检测数学新课导入——实例引领思维激活实例:山东省大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:体育文娱合计男生210230440女生60290350合计270520790数学想一想实例表格中的调查对象有何特征?(性别变量的取值只有男和女两种,活动方式变量的取值也只设置了体育与文娱两种)数学知识探究——自主梳理思考辨析1.分类变量与2×2列联表(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)2×2列联表的定义假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d数学2.独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)随机变量K2的计算公式随机变量K2=2nadbcabcdacbd,其中n=为样本容量.a+b+c+d数学(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有足够证据支持结论“X与Y有关系”.数学拓展提升:独立性检验的基本思想与反证法的思想类比反证法独立性检验要证明结论A提出假设H0在A不成立的前提下进行推理在H1不成立的条件下,即H0成立的条件下进行推理推出矛盾,意味着结论A成立推出有利于H0成立的小概率事件发生,意味着H0成立的可能性小没有找到矛盾,不能对A下任何结论,即反证法不成立推出有利于H0成立的小概率事件不发生,接受原假设数学题型探究——典例剖析举一反三题型一2×2列联表【例1】在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如表所示:分数段29~4041~5051~6061~7071~8081~9091~100午休考生人数23473021143114不午休考生人数1751671530173(1)根据上述表格完成列联表:及格人数不及格人数总计午休不午休总计(2)根据列联表可以得出什么样的结论?对以后的复习有什么指导意义?数学解:(1)根据题表中数据可以得到列联表如下:及格人数不及格人数总计午休80100180不午休65135200总计145235380(2)计算可知,午休的考生及格率为P1=80180=49,不午休的考生的及格率为P2=65200=1340,则P1P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.数学题后反思利用列联表可以较好地看出两个分类变量是否具有关系,如本题的午休与考试及格,类似地,吸烟与健康、读书年限与视力等变量间的关系也可以用列联表进行粗略估计.数学跟踪训练1-1:在一项社会调查中,调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女生中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.解:作列联表如下:喜欢吃甜食不喜欢吃甜食总计男117413530女492178670总计6095911200数学题型二利用等高条形图判断两个分类变量是否相关【例2】为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?数学解:等高条形图如图所示.其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性有关系题后反思等高条形图可以直观地分析两变量是否有关系,但这种方法比较粗略.数学跟踪训练21:从发生交通事故的司机中抽取2000名司机的随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如表:有责任无责任总计有酒精650150800无酒精7005001200总计13506502000相应的等高条形图如图所示.试结合等高条形图分析血液中含有酒精与对事故负有责任是否有关系?数学解:等高条形图中两个深色条的高分别表示司机血液中有酒精和无酒精样本中对事故负有责任的频率,从图中可以看出,司机血液中有酒精样本中对事故负有责任的频率明显高于司机血液中无酒精样本中对事故负有责任的频率.由此可以认为司机血液中含有酒精与对事故负有责任有关系.数学题型三独立性检验的实际应用【例3】某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如表所示,则我们能有99.9%的把握认为数学成绩优秀与物理、化学、总分优秀有关系吗?物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.数学名师导引:(1)独立性检验的方法:①列联表法;②等高条形图法;③K2公式法.(2)计算K2的观测值来判断数学成绩优秀与物理成绩优秀是否有关系的方法:列出数学与物理优秀的2×2列联表找到计算K2公式中的a、b、c、d代入计算.解:①根据已知数据列出数学与物理优秀的2×2列联表如下:物理优秀物理非优秀总计数学优秀228b360数学非优秀143d880总计371b+d1240数学∴b=360-228=132,d=880-143=737,b+d=132+737=869.代入公式可得K2的观测值为k1≈270.114.②按照上述方法列出数学与化学优秀的2×2列联表如下:化学优秀化学非优秀总计数学优秀225135360数学非优秀156724880总计3818591240代入公式可得K2的观测值k2≈240.611.数学③列出数学与总分优秀的2×2列联表如下:总分优秀总分非优秀总计数学优秀26793360数学非优秀99781880总计3668741240代入公式可得K2的观测值k3≈486.123.由于K2的观测值都大于10.828,由此说明有99.9%的把握认为数学成绩优秀与物理、化学、总分优秀有关系.数学题后反思(1)解决独立性检验问题的基本步骤是:①指出相关数据,作列联表;②求K2的观测值;③判断可能性,注意与临界值作比较,得出事件有关的可能性大小.(2)K2的作用只能说明分类变量“有关系”的可信度,并不能说明该关系的强弱.数学跟踪训练31:巴西医生马廷恩收集犯有各种贪污、受贿罪的官员与廉洁官员寿命的调查资料:500名贪官中有348人的寿命小于平均寿命,152人的寿命大于或等于平均寿命;590名廉洁官员中有93人的寿命小于平均寿命,497人的寿命大于或等于平均寿命.这里,平均寿命是指“当地人均寿命”.能否在犯错误的概率不超过0.01的前提下认为官员在经济上是否清廉与他们寿命的长短之间有关系?数学解:据题意列2×2列联表如下:短寿长寿总计贪官348152500廉洁官93497590总计4416491090假设官员是否清廉与他们的寿命长短无关.由公式得K2的观测值k=2109034849715293500590441649≈325.635.因为325.6356.635,所以,在犯错误的概率不超过0.01的前提下认为官员在经济上是否清廉与他们寿命的长短之间是有关系的.数学备选例题【例1】某地保障局工作人员发现某矿石粉厂当生产一种矿石粉时,在数天内就有部分工人患职业性皮肤炎,工作人员随机抽取车间工人抽血化验,75名穿新防护服的车间工人中5例阳性,70例阴性,28名穿旧防护服的车间工人中10例阳性,18例阴性,请用图形判定这种新防护服对预防工人职业性皮肤炎是否有效.(注:显阴性即未患皮肤炎)解:由题目所给的数据得2×2列联表:阳性例数阴性例数合计穿新防护服57075穿旧防护服101828合计1588103数学相应的等高条形图如图所示:图中两个深色条的高分别表示穿新、旧防护服样本中呈阳性的频率,从图中可以看出,穿旧防护服呈阳性的频率高于穿新防护服呈阳性的频率.因此,可以认为新防护服比旧防护服对预防工人职业性皮肤炎有效.数学【例2】为观察药物A、B对治疗某病的疗效,某医生将100例该病病人随机地分成两组,一组40人,服用A药;另一组60人,服用B药,结果发现:服用A药的40人中有30人治愈,服用B药的60人中有11人治愈,问:A、B两药对该病的治愈率之间是否有显著差别?解:列2×2列联表:治愈未治愈总计A药301040B药114960总计4159100由公式得:K2=21003049101140604159≈31.85910.828.所以,我们有99.9%的把握说A、B两药对该病的治愈率之间有显著差别.数学达标检测——反馈矫正及时总结1.下列关于等高条形图的叙述正确的是()(A)从等高条形图中可以精确地判断两个分类变量是否有关系(B)从等高条形图中可以看出两个变量频数的相对大小(C)从等高条形图可以粗略地看出两个分类变量是否有关系(D)以上说法都不对解析:在等高条形图中仅能粗略判断两个分类变量的关系,故A错.在等高条形图中仅能够找出频率,无法找出频数,故B错.故选C.C数学2.关于分类变量x与y的随机变量K2的观测值k,下列说法正确的是()(A)k的值越大,“X和Y有关系”可信程度越小(B)k的值越小,“X和Y有关系”可信程度越小(C)k的值越接近于0,“X和Y无关”程度越小(D)k的值越大,“X和Y无关”程度越大解析:k的值越大,X和Y有关系的可能性就越大,也就意味着X与Y无关系的可能性就越小.故选B.B数学3.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果k≥5.024,那么就有把握认为“X与Y有关系”的百分比为()P(K2≥k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706P(K2≥k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.828(A)25%(B)75%(C)2.5%(D)97.5%解析:k=5.024对应概率为0.025,因此两个分类变量有关系的可信程度为97.5%.故选D.D数学4.根据下表计算:不看电视看电视男3785女35143K2的观测值k≈.(保留3位小数)解析:K2的观测值k=2378535143371438535853735143373585143≈4.514.答案:4.514数学课堂小结1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.数学点击进入课后作业数学