日常生活中我们关心这样一些问题:1.吸烟与患呼吸道疾病有无关系?2.秃顶与心脏病之间有无关系?3.性别与喜欢数学课之间有无关系?以上问题用什么知识来解决呢?统计学中检验两个变量是否有关系的一种统计方法———独立性检验•某医疗机构为了了解患呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人,调查结果是:吸烟的220人中37人患呼吸道疾病,183人未患呼吸道疾病;不吸烟的295人中21人患病,274人未患病。●根据这些数据能否断定:患呼吸道疾病与吸烟有关?吸烟与患呼吸道疾病列联表患病不患病总计吸烟37183220不吸烟21274295总计58457515为了调查吸烟是否对呼吸道有影响,某医疗研究所随机地调查了515人,得到如下结果(单位:人)列联表在不吸烟者中患病的比重是在吸烟者中患病的比重是7.12%16.82%不患肺癌患肺癌不吸烟吸烟050100150200250300不吸烟吸烟不患病患病1)通过图形直观判断三维柱状图050100150200250300350不吸烟吸烟患肺癌不患肺癌不患病患病2)通过图形直观判断二维条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌不患病患病3)通过图形直观判断患病比例不患病比例问题1:吸烟与不吸烟,患病的可能性的大小是否有差异?吸烟者和不吸烟者患呼吸道疾病的可能性存在差异,吸烟者患呼吸道疾病的可能性大问题2:差异大到什么程度才能作出“吸烟与患病有关”的判断?问题3:能否用数量刻画出“有关”的程度?初步结论:思考交流:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。①数据整理;(列2×2联表)②做出相反的假设;(“患病与吸烟没有关系”)③计算;④查临界值表;⑤下结论。统计学对此类问题提供了这样的方法:①数据整理;(列2×2联表)②做出相反的假设;(“患病与吸烟没有关系”)③计算;④查临界值表;⑤下结论。21212211212112)(nnnnnnnnn)(22211211为样本量nnnnn2统计学对此类问题提供了这样的方法:2`1、列2×2联表吸烟与患呼吸道疾病关系列联表患病不患病总计吸烟n11n12不吸烟n21总计n1n2n22n2n1nH0:吸烟和患呼吸道疾病没有关系通过数据和图表分析,得到结论是:吸烟与患呼吸道病有关结论的可靠程度如何?2、做出相反的假设3、计算2吸烟的人中患病的比例:111nn不吸烟的人中患病的比例:221nn吸烟与患呼吸道疾病关系列联表患病不患病总计吸烟n11n12不吸烟n21总计n2n1n1n2n22n若H0成立012212211nnnn221111nnnn)()(121121222111nnnnnn||12212211nnnn越小,说明吸烟与患呼吸道疾病关系越弱;||12212211nnnn越大,说明吸烟与患呼吸道疾病关系越强;作为检验在多大程度上可以认为“两个变量有关系”的标准。22211211nnnnn其中统计学家为了消除样本量对上式的影响,引入了卡方统计量221212211222112)(nnnnnnnnn通过公式计算8634.1129522045758183212743751522吸烟与患呼吸道疾病列联表患病不患病总计吸烟37183220不吸烟21274295总计5845751521212211212112)(nnnnnnnnn22211211nnnnn其中4、查表1)如果P(10.828)=0.001表示有99.9%的把握认为”X与Y”有关系;2)如果P(7.879)=0.005表示有99.5%的把握认为”X与Y”有关系;3)如果P(6.635)=0.01表示有99%的把握认为”X与Y”有关系;4)如果P(5.024)=0.025表示有97.5%的把握认为”X与Y”有关系;5)如果P(3.841)=0.05表示有95%的把握认为”X与Y”有关系;6)如果P(≤3.841)就认为没有充分的证据显示”X与Y”有关系;2222222已知在成立的情况下,0H故有99.9%的把握认为H0不成立,即有99.9%的把握认为“患呼吸道疾病与吸烟有关系”。以下001.0)8634.11(2P5、下结论DNA是从几滴血,腮细胞或培养的组织纤内提取而来.用畴素将DNA样本切成小段,放进喱胶内,用电泳槽推动DNA小块使之分离--最细的在最远,最大的最近.之後,分离开的基因放在尼龙薄膜上,使用特别的DNA探针去寻找基因,相同的基因会凝聚于一,然後,利用特别的染料,在X光的环境下,便显示由DNA探针凝聚于一的黑色条码.小孩这种肉眼可见的条码很特别----一半与母亲的吻合,一半与父亲的吻合.这过程重覆几次,每一种探针用于寻找DNA的不同部位并影成独特的条码,用几组不同的探针,可得到超过99,9%的父系或然率或分辨率.DNA亲子鉴定的原理和程序DNA亲子鉴定的结果孩子会有一条纹与亲生母亲相同而另一条码与待证实父亲1号(AF1)相同,此人是生父;被排除的男子(AF2),则与小孩并无相同的条码.肯定父系关系=99.99%或更大的生父或然率(法律上证明是生父)否定父系关系=0%生父或然率(100%排除为生父)例4.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175秃顶.分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?秃顶与患心脏病列联表患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437患心脏病患其他病秃顶不秃顶0100200300400500600秃顶不秃顶有99%的把握认为“秃顶与患心脏病有关”221437(214597175451)16.3736.6353891048665772例5为考察高中生的性别与是否喜欢数学课程之间的关系。在某城市的某校高中生随机抽取300名学生。得到如下列联表:性别与喜欢数学课程列联表喜欢不喜欢总计男3785122女35143178总计72228300由表中数据计算得到的观测值≈4.514。能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?22解:在假设“性别与是否喜欢数学课程之间没有关系”的前提下,应该很小,并且而我们所得到的的观测值超过3.841,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”。2222(3.841)0.05P24.514练习:甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下列联表:优秀不优秀总计甲班103545乙班73845总计177390画出列联表的条形图,并通过图形判断成绩与班级是否有关.利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。由图及表直观判断,好像“成绩优秀与班级有关系”,由表中数据计算,得的观察值为。由教科书中表1-12,得从而由50%的把握认为“成绩优秀与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。220.6530.4552(0.455)0.50P100%90%80%70%60%50%40%30%20%10%0%优秀不优秀列联表的条形图:小结:1、独立性检验的基本思想2、独立性检验是用统计量研究一类问题的方法。23、用统计量研究问题的步骤2由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用进行独立性检验,可以对推断的正确性的概率作出估计,样本量n越大,估计越准确。2再见