边城高级中学张秀洲1、了解分类变量、2×2列联表、随机变量K2的意义.2、通过对典型、案例的分析,了解独立性检验的基本思想方法.3、通过典型、案例的分析,了解两个分类变量的独立性检验的应用.自学教材P91—P96解决下列问题一、了解分类变量、2×2列联表、随机变量K2的意义.二、《基础训练》例题.1.分类变量及2×2列联表(1)分类变量的定义变量的不同“值”表示的不同类别,像这样的变量称为分类变量.(2)2×2列联表的定义假设有两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(称为2×2列联表)为:个体所属{x1,x2}{y1,y2}1y2y总计1xab2xcd总计a+bc+da+cb+da+b+c+d2、随机变量K2为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K2=,其中为样本容量.3.独立性检验利用随机变量K2来判断“”的方法称为独立性检验.nad-bc2a+bc+da+cb+dn=a+b+c+d两个分类变量有关系类型1:利用等高条形图判断两个分类变量是否相关【例】为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?【解答】等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.1.本题采用数形结合法通过条形图直观地看出差异,得出结论.2.应用等高条形图判断两变量是否相关的方法在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.“两个比例的值相差越大,H1成立的可能性就越大.”网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?【解】根据题目所给的数据得到如下2×2列联表:经常上网不经常上网总计不及格80120200及格120680800总计2008001000得出等高条形图如图所示:比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.类型2:由k2进行独立性检验【例】某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则我们能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分优秀有关系?物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.【自主解答】(1)根据已知数据列出数学与物理优秀的2×2列联表如下:物理优秀物理非优秀总计数学优秀228b360数学非优秀143d880总计371b+d1240∴b=360-228=132,d=880-143=737,b+d=132+737=869.代入公式可得K2的观测值为k1≈270.114.(2)按照上述方法列出数学与化学优秀的2×2列联表如下:化学优秀化学非优秀总计数学优秀225135360数学非优秀156724880总计3818591240代入公式可得K2的观测值k2≈240.611.(3)列出数学与总分优秀的2×2列联表如下:总分优秀总分非优秀总计数学优秀26793360数学非优秀99781880总计3668741240代入公式可得K2的观测值k3≈486.123.由于K2的观测值都大于10.828,由此说明都能在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分优秀有关系.1.独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.2.独立性检验的具体做法(1)根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.(2)利用公式K2=nad-bc2a+bc+da+cb+d计算随机变量K2的观测值k.(3)如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.在研究某种药物对“H1N1”病毒的治疗果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.(1)根据以上数据建立一个2×2列联表;(2)试问该种药物对治疗“H1N1”病毒是否有效?【解】(1)2×2列联表如下:存活数死亡数总计服用该药物13218150未服该药物11436150总计24654300(2)由(1)知K2=300×132×36-114×182246×54×150×150≈7.3176.635.故在犯错误的概率不超过0.01的前提下认为该种药物对“H1N1”病毒有治疗效果.类型3:独立性检验的综合应用【例】研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验,发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的18名,否定的42名;110名男生在相同的题目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.【自主解答】根据题目所给数据列出下列表格:态度性别肯定否定总计男生2288110女生184260总计40130170根据表中的数据得K2的观测值k=170×22×42-18×882110×60×40×130≈2.158<2.706.所以没有充分的理由说明性别与态度有关.要得到两个变量之间有关或无关的精确的可信程度,需作独立性检验的有关计算,K2越小,变量间的关系越弱,当K2<2.706时,我们认为两个变量无关.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510件产品中合格品有493件,次品有17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响?【解】(1)2×2列联表如下:合格情况在生产现场情况合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1475251500由列联表可得|ac-bd|=|982×17-493×8|=12750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.(2)由2×2列联表中数据,计算得到K2的观测值为k=1500×982×17-493×82990×510×1475×25≈13.0976.635,所以在犯错误的概率不超过0.01的前提下,认为质量监督员甲是否在生产现场与产品质量有关系.2020年7月10日星期五你学会了吗?※对自己说,你有什么收获?※对同学说,你有什么提示?※对老师说,你有什么疑惑?独立性检验与反证法的比较反证法独立性检验要证明结论A要确认“两个分类变量有关系”在A不成立的前提下进行推理假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下计算K2推出矛盾意味着结论A成立由观测数据计算得到的K2的观测值k很大,则在一定可信程度上说明假设不合理没有找到矛盾,不能对A下任何结论,即反证法不成立根据随机变量K2的含义,可以通过概率P(K2≥k0)的大小来评价该假设不合理的程度有多大,从而得出“两个分类变量有关系”这一结论成立的可信程度有多大2020年7月10日【预习】课本P2-P7《平面直角坐标系》1次必做题:《基础训练》变式训练1、2选做题:《基础训练》变式训练3