独立性检验原理(1)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1.上节学习了回归分析的基本方法.线性回归模型y=bx+a+e不同于一次函数y=bx+a,含有__________,其中x为_________,y为__________.温故夯基随机误差e解释变量预报变量2.回归直线一定过点(x,y),此为______________.3.R2表达式中的i=1n(yi-y)2为确定的数,i=1n(yi-y^i)2称为____________.样本点的中心残差平方和222121ˆ,:1.niiiniiyyRRyy相关指数来刻画回归的效果公式是1、两个相关的概念对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量,它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别。(1)分类变量:定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义。(2)定量变量:例如身高、体重、考试成绩等,张明的身高是180cm,李立的身高是175cm,说明张明比李立高180-175=5(cm)。研究两个变量的相关关系:定量变量:体重、身高、温度、考试成绩等等。变量分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等。两种变量:本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心分类变量的之间是否有关系2定量变量——回归分析(画散点图、相关系数r、变量相关指数R、残差分析)分类变量——独立性检验二.问题:为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)2×2列联表思考:根据以上表格。能否断定吸烟对患肺癌有影响?判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异?不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965吸烟与患肺癌列联表(列出两个分类变量的频数表):吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是0.54%2.28%根据统计分析的思想,用频率估计概率可知,吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大方法1.用频率估计概率方法2.通过图形直观判断0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌等高条形图患肺癌比例不患肺癌比例由上述图形显然可以得到结论是:吸烟与患肺癌有关思考:这种判断可靠吗?你能有多大把握认为“患病与吸烟有关”呢?不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d假设吸烟与患肺癌没有关系,那么吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例差不多即()()0acacdcababcdadbcadbcadbc即因此越小说明吸烟与患肺癌之间关系越弱;因此越大说明吸烟与患肺癌之间关系越强。0H假设:吸烟与患肺癌没有关系22()()()()()nadbcabcdacbd为了是不同样本容量的数据有一个统一的标准,构造一个随机变量K,其中n=a+b+c+d为样本容量2000HKkkk在假设成立的前提下,的观测值应该比较小因此,当很小时,说明在一定的可信程度上H成立;很大时,说明没有充分的证据说明H成立。k大小的标准是什么呢?0k临界值独立性检验首先,假设结论不成立,即H:两个分类变量没有关系(在这种假设下k应该很小)其次,由观测数据计算K的观测值k,(如果k很大,则在一定可信程度上说明H不成立,即两个分类变量之间有关系)最后,根据k的值判断假设是否成立2卡方临界值表:10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k00.0010.0050.0100.0250.050.100.150.50.400.5020()PKk10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.502()PKk(1)如果k10.828,就有99.9%的把握认为“X与Y有关系”;(2)如果k7.879,就有99.5%的把握认为“X与Y有关系”;(3)如果k6.635,就有99%的把握认为“X与Y有关系”;(4)如果k5.024,就有97.5%的把握认为“X与Y有关系”;(5)如果k3.841,就有95%的把握认为“X与Y有关系”;(6)如果k2.706,就有90%的把握认为“X与Y有关系”;(7)如果k=2.706,就认为没有充分的证据显示“X与Y有关系”.临界表02220:9965(777549422099)56.63278172148987491(10.828)0.00156.631KPK解:假设H吸烟与患肺癌没有关系的观测值为k根据临界值表可知远大于10.828,所以有理由判断H不成立,所以吸烟与患癌症有关系。注:1)这种判断可能会犯错误,但是犯错误的概率不会超过0.001,这是个小概率事件,即我们有99.9%的把握认为“吸烟与患癌症有关系”2)利用随机变量来判断“两个分类变量有关系”的方法称为这两个分类变量的独立性检验。2k反证法原理与独立性检验原理反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。独立性检验原理:在一个已知假设下,如果推出一个小概率事件发生,则推断这个假设不成立的可能性很大。返回在判断两变量相关时,若K2的观测值k=56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001,哪种说法是正确的?提示:两种说法均正确.P(K2≥6.635)≈0.01的含义是:在犯错误的概率不超过0.01的前提下,认为两变量相关;而P(K2≥10.828)≈0.001的含义是:在犯错误的概率不超过0.001的前提下,认为两变量相关.问题探究在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患肺病B、从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C、若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推理出现错误D、以上三种说法都不对c在某医院,因为患心脏病而住院的665名病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。利用图形判断秃顶与患心脏病是否有关系。能够以99%的把握认为秃顶与患心脏病有关系吗?为什么?例1患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437(1)等高条形图从图中可以看出,秃顶样本中患心脏病的频率明显高于不秃顶样本中患心脏病的频率,因此可直观地认为秃顶与患心脏病有关系。0%20%40%60%80%100%秃顶不秃顶患其他病患心脏病因此,在犯错误的概率不超过0.010的前提下认为“秃顶与患心脏病有关”,即有99%的把握认为“秃顶与患心脏病有关”。(2)独立性检验法患心脏病患其他病总计秃顶214175389不秃顶4515971048总计665772143721437(214597175451)16.3736.6353891048665772k独立性检验的一般步骤:(1)根据样本数据制成2×2列联表;(2)根据公式K2=计算K2的值;(3)查表比较K2与临界值的大小关系,作统计判断.例2如果K2的观测值k为8.654,可推断“X与Y有关”犯错误的概率不超过______.•[答案]0.005•[解析]k=8.654>7.879,就推断“X与Y有关”犯错误的概率不超过0.005.•练习有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表•班级与成绩列联表试问能有多大把握认为“成绩与班级有关系”?优秀不优秀总计甲班103545乙班73845总计177390K2=90×(10×38-7×35)217×73×45×45=0.653,0.653<2.706,所以没有充分的把握认为成绩与班级有关.

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功