1.xls 独立性检验的基本思想及其初步应用^_^、11

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2定量变量——回归分析(画散点图、相关系数r、变量相关指数R、残差分析)分类变量——研究两个变量的相关关系:定量变量:体重、身高、温度、考试成绩等等。变量分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等。两种变量:独立性检验分类变量:变量的不同”值”表示个体所属的不同类别.如:性别,是否吸烟,宗教信仰,国籍等日常生活中我们关心这样一些问题:1.吸烟与患肺癌之间有无关系?2.秃顶与心脏病之间有无关系?3.性别与喜欢数学课之间有无关系?以上问题能否用回归分析的知识来解决?为什么?例1.为了调查吸烟是否对患肺癌有影响,某肿瘤研究院随机的调查了9965人,得到如下结果:不患肺癌患肺癌总计比例不吸烟77754278170.54%吸烟20994921482.28%总计9874919965问:吸烟是否对患肺癌有影响?解从图表的比例可以看出:吸烟与不吸烟可能对患肺癌的可能存在差异,我们再通过不同的图表来分析列联表:两个分类变量的频数表010002000300040005000600070008000不患肺癌吸烟不吸烟患肺癌三维柱形图不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965二维条形图0100020003000400050006000700080009000不吸烟吸烟患肺癌不患肺癌等高条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌上面我们通过图形的分析,初步判断吸烟与患肺癌有关系。那么,事实是否如此呢?我们需要用统计的观点来考察这个问题我们首先设基本事件为:H0:吸烟与患肺癌没有关系我们下面就一般关系做一个推断不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d如果吸烟与患肺癌没有关系,则:dccbaaa(c+d)≈c(a+b)ad-bc≈0因此,|ad-bc|越小,说明吸烟与患肺炎之间没有关系。为了使样本空间有一定的代表性,我们引入一个随机变量))()()(()(22dbcadcbabcadnK(n=a+b+c+d(样本容量))若,H0成立,(吸烟与患肺癌无关)则K应该很小,通过计算我们可以得到K的观测值:k=K2=56.632总计的四项说明:根据统计学家的分析:P(K2≥10.828)≈0.001P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001K。0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828表1-120.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8282()PKkk(7)2.706,kXY如果就认为没有充分的证据显示与有关系(6)2.706,90%kXY如果就有的把握认为与有关系(1)10.828,99.9%kXY如果就有的把握认为与有关系(2)7.879,99.5%kXY如果就有的把握认为与有关系(3)6.635,99%kXY如果就有的把握认为与有关系(4)5.024,97.5%kXY如果就有的把握认为与有关系(5)3.841,95%kXY如果就有的把握认为与有关系上面的利用K2来检验“两个变量有关系”的方法成为:独立性检验说明:两个变量X与Y独立性检验的一般方法:1.设两个变量的值域分别为{x1,x2}{y1.,y2},列频数列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d4.利用统计概率表1-12查阅发生的概率3.计算变量X与Y的评判标准K2的观测值5.得出概率结论2.假设“X与Y无关”例1.在研究某种新药对小白兔的防治效果时,得到下表数据:存活数死亡数总计未用新药10138139用新药12920149总计23058288试分析新药对防治小白兔是否有效?228810120381298.6587.87913914923058k99.5%的把握判定新药对防治小白兔是有效的.解:假设“新药对防治小白兔无效”根据列联表中的数据,得到的观测值k为2K例2.某心脏病医院为了研究秃顶是否与心脏病有关,对665名男性心脏和772名其他病人做了研究,是否可以以99%的把握认为秃顶与心脏病有关?患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437智慧的闪光!患心脏病患其他病总计秃顶214175389不秃顶4515971048总计665772143722,143721459717545116.3736.6353891048665772Kk根据列联表中的数据得的观测值为所以有99%的把握认为”秃顶与患心脏病有关”解:假设“秃顶与患心脏病无关”研究人员表示,掉头发在很大程度上是由日渐增大的工作压力、不能充分休息、不正确饮食和睡眠不足等因素引起的。在接受调查的人群中,有41%的受秃头威胁的人表示,他们一日睡觉时间不足4小时秃顶=心脏病?1212,,{,}{,},(22):XYxxyy一般地假设有两个分类变量和它们的值域分别为和其样本频数列联表称为列联表为总计aba+bcdc+d总计a+cb+da+b+c+d1x2x1y2y若要推断的结论为H1:”X与Y有关系”,可如下操作:1.通过三维柱形图和二维条形图,可以粗略地判断两个变量是否有关系,但是这种判断不精确.总计aba+bcdc+d总计a+cb+da+b+c+d1x2x1y2y不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d不患肺癌患肺癌不吸烟吸烟010002000300040005000600070008000abcd主对角线副对角线(1)在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上两个柱形高度的乘积bc相差越大,H1成立的可能性就越大总计aba+bcdc+d总计a+cb+da+b+c+d不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d1x2x1y2y0100020003000400050006000700080009000不吸烟吸烟患肺癌不患肺癌abcd11XxYyaab满足条件的个体中具有的个体所占的比例为21XxYyccd满足条件的个体中具有的个体所占的比例为(2)在二维条形图中,两个比例的值相差越大,H1成立的可能性就越大2.利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:根据观测数据计算由22nadbcKabcdacbdnabcd其中为样本容量给出的随机变量K2的值k,其值越大,说明”X与Y有关系”成立的可能性越大.当得到的观测数据a,b,c,d都不小于5时,可以通过查表来断言”X与Y有关系”的可信程度

1 / 26
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功