§1.2独立性检验的基本思想及其初步应用第1课时分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。为调查吸烟是否对患肺有影响,某种瘤研究所随机地调查了9965人,得到如下结果(单位:人)表1-7吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么吸烟是否对患肺癌有影响?像表1-7这样列出的两个分类变量的频数表,称为列联表。结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。0.02280.0054在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是等高条形图不患病比例患病比例结论:吸烟更容易引发肺癌表1-9吸烟与肺癌联列表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d结论是否可靠?假设吸烟与患肺癌没有关系越小,说明吸烟与患肺癌之间的关系越弱。(没有关系的可能性大)越大,说明吸烟与患肺癌之间的关系越强。bcadbcad))()()(()(22dbcadcbabcadnK随机变量(卡方统计量):)(dcban其中作用:检验两个变量有关系的标准卡方临界值表:0.500.400.250.150.100.050.0250.0100.0050.0010.4450.7081.3232.0722.7063.8415.0246.6357.87910.82820()PKk0kK2的观测值为k如果,就以的把握认为“X与Y有关系”;而这种判断有可能出错,出错的概率不会超过。0kk%100))(1(02kKP)(02kKP;YX%9.99,828.10k1:关系有与把握认为就有如果例如;YX%5.99,879.7k2系有关与把握认为就有如果;YX%99,635.6k3有关系与把握认为就有如果;YX%5.97,024.5k4系有关与把握认为就有如果;YX%95,841.3k5有关系与把握认为就有如果;YX%90,706.2k6有关系与把握认为就有如果独立性检验的定义利用随机变量来判断两个分类变量有关系的方法。要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:(1)提出假设H0:Ⅰ和Ⅱ没有关系;(3)查对临界值,作出判断。2K2K(2)根据2X2列联表与公式计算的观测值k;02220:9965(777549422099)56.63278172148987491(10.828)0.00156.631KPK解:假设H吸烟与患肺癌没有关系的观测值为k根据临界值表可知远大于10.828,所以有理由判断H不成立,所以吸烟与患癌症有关系。这种判断可能有错误,但是犯错误的不会超过0.001,这是个小概率时间,我们有99.9%的把握认为“吸烟与患癌症有关系”例1在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?解:根据题目所给数据得到如下列联表:患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437根据联表1-13中的数据,得到221437(214597175451)16.3736.635.3891048665772K所以有99%的把握认为“秃顶患心脏病有关”。P(k≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828有效无效合计口服584098注射643195合计12271193解:设H0:药的效果与给药方式没有关系。3896.19598711224064315819322K因当H0成立时,K2≥1.3896的概率大于15%,故不能否定假设H0,即不能作出药的效果与给药方式有关的结论。例4:为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的193个病人的数据,能否作出药的效果和给药方式有关的结论?例3.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。未感冒感冒合计使用血清252248500未使用血清224276500合计4765241000试画出列联表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立性检验。解:设H0:感冒与是否使用该血清没有关系。075.7500500526474216242284258100022K因当H0成立时,K2≥6.635的概率约为0.01,故有99%的把握认为该血清能起到预防感冒的作用。P(k≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828P(k≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828例5:气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?有效无效合计复方江剪刀草18461245胆黄片919100合计27570345解:设H0:两种中草药的治疗效果没有差异。098.11100245702759161918434522K因当H0成立时,K2≥10.828的概率为0.001,故有99.9%的把握认为,两种药物的疗效有差异。【例1】某校对学生课外活动进行调查,结果整理成下表:试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?体育文娱总计男生212344女生62935总计275279[思路探索]可用数据计算K2,再确定其中的具体关系.解判断方法如下:假设H0“喜欢体育还是喜欢文娱与性别没有关系”,若H0成立,则K2应该很小.∵a=21,b=23,c=6,d=29,n=79,∴k=nad-bc2a+bc+da+cb+d=79×21×29-23×6221+23×6+29×21+6×23+29≈8.106.且P(K2≥7.879)≈0.005即我们得到的K2的观测值k≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.【变式1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关?成绩优秀成绩较差总计兴趣浓厚的643094兴趣不浓厚的227395总计86103189解由公式得K2的观测值k=189×64×73-22×30286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.