为了调查吸烟是否对患肺癌有影响,某肿瘤研究所随机的调查了9965人,得到结果如下(单位:人)列联表:不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么吸烟是否会患肺癌有影响?通过图形直观判断不患病比例患病比例不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d假设吸烟与患肺癌没有关系,那么吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例差不多即()()0acacdcababcdadbcadbcadbc即因此越小说明吸烟与患肺癌之间关系越弱;因此越大说明吸烟与患肺癌之间关系越强。0H假设:吸烟与患肺癌没有关系22()()()()()nadbcabcdacbd为了是不同样本容量的数据有一个统一的标准,构造一个随即变量(a,b,c,d均必须大于5)K,其中n=a+b+c+d为样本容量2000HKkkk在假设成立的前提下,的观测值应该比较小因此,当很小时,说明在一定的可信程度上H成立;很大时,说明没有充分的证据说明H成立。k大小的标准是什么呢?0k临界值独立性检验首先,假设结论不成立,即H:两个分类变量没有关系(在这种假设下k应该很小)其次,由观测数据计算K的观测值k,(如果k很大,则在一定可信程度上说明H不成立,即两个分类变量之间有关系)最后,根据k的值判断假设是否成立2临界值表:0.500.400.250.150.100.050.0250.0100.0050.0010.4450.7081.3232.0722.7063.8415.0246.6357.87910.82820()PKk0k02220:9965(777549422099)56.63278172148987491(10.828)0.00156.631KPK解:假设H吸烟与患肺癌没有关系的观测值为k根据临界值表可知远大于10.828,所以有理由判断H不成立,所以吸烟与患癌症有关系。这种判断可能有错误,但是犯错误的不会超过0.001,这是个小概率事件,我们有99.9%的把握认为“吸烟与患癌症有关系”在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患肺病B、从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C、若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推理出现错误D、以上三种说法都不对c在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。利用图形判断秃顶与患心脏病是否有关系。能够以99%的把握认为秃顶与患心脏病有关系吗?为什么?例1患心脏病换其他病总计秃顶214175389不秃顶4515971048总计6657721437底面副对角线上两个柱体高度的乘积要大一些,因此可以在某种程度上认为“秃顶与患心脏病有关”21437(214597175451)16.3736.6353891048665772k所以有99%的把握认为“秃顶与患心脏病有关”因为这组数据来自被调查的医院,因此此结论只是用于该医院住院的病人群体例2为了考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随即抽取300名学生,得到如下列联表:由表中数据计算得到的观测值。能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?喜欢数学课程不喜欢数学课程总计男3785122女35143178总计722283002K4.514k222(3.841)0.054.5143.841PKKk解:在假设“性别与是否喜欢数学之间没有关系”的前提下,K应该很小,并且而的观测值超过了,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”这一结论只适用于被调查的学校