选修1-2.1.2独立性检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

课题引入:在现实中,我们会遇到类似下面的问题:肺癌是严重威胁人类生命的一种疾病,吸烟与患肺癌有关系吗?性别对是否喜欢数学课程有影响吗?1.2独立性检验的基本思想及其初步应用对于性别变量,其取值为男和女两种。这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为“分类变量”。在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍……日常生活中,我们常常关心两个分类变量之间是否有关系,例如吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响等等。在统计学中,独立性检验是检验两个分类变量是否有关系的一种统计方法。为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)表1-7吸烟与患肺癌列联表那么吸烟是否对患肺癌有影响?因此,直观上得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异。在不吸烟者中患肺癌的比例是在吸烟者中患肺癌的比例是0.54%2.28%与表格相比,等高条形图能更直观地反映出相关数据的总体状况9965919874总计2148492099吸烟7817427775不吸烟总计患肺癌不患肺癌列联表:两个分类变量的频数表(四行四列)探究:等高条形图0%20%40%60%80%100%不吸烟吸烟不患肺癌患肺癌不患病比例患病比例0.54%2.28%上面我们通过分析数据和图形,得到的直观印象是“吸烟和患肺癌有关”。这一直觉来自于观测数据,即样本。问题是我们有多大的把握认为“吸烟和患肺癌有关”H0:吸烟与患肺癌没有关系我们假设看看能推出什么样的结论。a+b+c+db+da+c总计c+ddc吸烟a+bba不吸烟总计患肺癌不患肺癌为了研究的一般性,在列联表1-7中中用字母代替数字:结论:|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强;如果”吸烟与患肺癌没有关系”,则在吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即acabcda+b+c+db+da+c总计c+ddc吸烟a+bba不吸烟总计患肺癌不患肺癌acdcab0adbc为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量(卡方统计量)22nadbcKabcdacbdnabcd(1)其中为样本容量若H0成立,即“吸烟与患肺癌没有关系”,则应该很小。2K利用公式(1)计算得K2的观测值为:2996577754942209956.63278172148987491k接下来,我们就利用卡方统计量K2来判断探究中“吸烟与患肺癌有关”的可靠程度。例:现在,根据表1-7中的数据9965919874总计2148492099吸烟7817427775不吸烟总计患肺癌不患肺癌在H0成立的情况下,统计学家估算出如下的概率:26.6350.010PK即在H0成立的情况下,K2的值大于6.635的概率非常小,近似于0.010。现在的观测值56.632远大于6.635,即假设成立的概率为0.010,是小概率事件,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”。但这种判断会犯错误,犯错误的概率不会超过0.010。即有99%的把握认为“吸烟与患肺癌有关”。上面这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。10.8287.8796.6355.0243.8412.7062.0721.3230.7080.4550.0010.0050.0100.0250.050.100.150.250.400.5020()PKk0k(1)10.828,99.9%kXY如果就有的把握认为与有关系(2)7.879,99.5%kXY如果就有的把握认为与有关系(3)6.635,99%kXY如果就有的把握认为与有关系(4)5.024,97.5%kXY如果就有的把握认为与有关系(5)3.841,95%kXY如果就有的把握认为与有关系(6)2.706,90%kXY如果就有的把握认为与有关系(7)2.706,kXY如果就认为没有充分的证据显示与有关系临界值表:1212,,{,}{,},(22):XYxxyy一般地假设有两个分类变量和它们的取值分别为和其样本频数列联表称为列联表为a+b+c+db+da+c总计c+ddca+bba总计1x2x1y2y若要推断的结论为H1:”X与Y有关系”,可用如下方法:2、图形分析法:通过等高条形图。你能从上述探究过程中总结出判断两个分类变量有关系的思路吗?1、频率比较法:根据列联表。思考:3.独立性检验法步骤:(1)列出列联表,(2)假设两分类变量没有关系,(3)计算K2观测值k,(4)查临界值表,作出判断(两分类变量有关系的程度).例1春节期间,“厉行节约,反对浪费”之风悄然吹开,某市随机询问100名性别不同的居民是否能做到“光盘”行动,(1)完成如下列联表。(2)有多大的把握认为居民能否做到“光盘”与性别有关系?(3)能否在犯错误的概率不超过0.010的前提下认为居民能否做到“光盘”与性别有关系?10075总计15女5545男总计做到光盘做不到光盘“光盘”与性别列联表例题解析:例1春节期间,“厉行节约,反对浪费”之风悄然吹开,某市随机询问100名性别不同的居民是否能做到“光盘”行动,(1)完成如下列联表。(2)有多大的把握认为居民能否做到“光盘”与性别有关系?(3)能否在犯错误的概率不超过0.010的前提下认为居民能否做到“光盘”与性别有关系?1002575总计451530女551045男总计做到光盘做不到光盘“光盘”与性别列联表例题解析:03.345552575)10301545(10022K假设“性别与是否做到光盘之间没有关系”10.0)706.2(2KP有90%的把握认为居民能否做到“光盘”与性别有关。1002575总计451530女551045男总计做到光盘做不到光盘“光盘”与性别列联表10.8287.8796.6355.0243.8412.7062.0721.3230.7080.4550.0010.0050.0100.0250.050.100.150.250.400.5020()PKk0k706.203.345552575)10301545(10022K假设“性别与是否做到光盘之间没有关系”010.0)635.6(2KP不能在犯错误的概率不超过0.010的前提下认为居民能否做到“光盘”与性别有关系1002575总计451530女551045男总计做到光盘做不到光盘“光盘”与性别列联表10.8287.8796.6355.0243.8412.7062.0721.3230.7080.4550.0010.0050.0100.0250.050.100.150.250.400.5020()PKk0k635.6在犯错误的概率不超过0.010的前提下认为居民能否做到“光盘”与性别没有关系为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下联表:喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300练习:1性别与喜欢数学课由表中数据计算K2的观测值k4.513.在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么?喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300练习:1性别与喜欢数学课这就意味着“性别与是否喜欢数学课程之间有关系”这一结论错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”.解:假设高中生的性别与是否喜欢数学课程之间没关系.由k4.5133.8412.某单位餐厅的固定餐椅经常有损坏,于是该单位领导决定在餐厅墙壁上张贴文明标语,并对文明标语张贴前后餐椅的损坏情况作了一个统计,具体数据如下:损坏餐椅数未损坏餐椅数总计文明标语张贴前39157196文明标语张贴后29167196总计68324392由表中数据计算K2约等于1.78.你认为在餐厅墙壁上张贴文明标语对减少餐椅损坏数有效果吗2.某单位餐厅的固定餐椅经常有损坏,于是该单位领导决定在餐厅墙壁上张贴文明标语,并对文明标语张贴前后餐椅的损坏情况作了一个统计,具体数据如下:损坏餐椅数未损坏餐椅数总计文明标语张贴前39157196文明标语张贴后29167196总计683243923、某班主任对全班50名学生作了一次调查得下表,由表中数据得到K2的观测值k≈5.059,于是__________(能或不能)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关系。3、某班主任对全班50名学生作了一次调查得下表,由表中数据得到K2的观测值k≈5.059,于是________(能或不能)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关系。不能635.6059.501.0)635.6(2KP练习4、在吸烟和患肺癌这两个分类变量的计算中,下列说法正确的是()A、若K2的观测值k=6.635,我们在犯错的概率不超过0.010的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺病B、从独立性检验可知有99%的把握认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C、若从统计量中求出有5%的可能性使得推断出现错误,是指有95%的把握认为吸烟与患肺病有关系D、以上三种说法都不正确C解析:因为统计结果只是说明事件发生的概率大小,具体到一个个体不一定发生。吸烟有害健康!正常人的肺吸烟者的肺独立性检验法步骤:(1)列出列联表,(2)假设两分类变量没有关系,(3)计算K2观测值k,(4)查临界值表,作出判断(两分类变量有关系的程度).

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功