日常生活中我们关心这样一些问题:1.吸烟与患呼吸道疾病有无关系?2.秃顶与心脏病之间有无关系?3.性别与喜欢数学课之间有无关系?以上问题用什么知识来解决呢?统计学中检验两个变量是否有关系的一种统计方法———独立性检验•某医疗机构为了了解患呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人,调查结果是:吸烟的220人中37人患呼吸道疾病,183人未患呼吸道疾病;不吸烟的295人中21人患病,274人未患病。●根据这些数据能否断定:患呼吸道疾病与吸烟有关?吸烟与患呼吸道疾病列联表患病不患病总计吸烟37183220不吸烟21274295总计58457515为了调查吸烟是否对呼吸道有影响,某医疗研究所随机地调查了515人,得到如下结果(单位:人)列联表在不吸烟者中患病的比重是在吸烟者中患病的比重是7.12%16.82%不患肺癌患肺癌不吸烟吸烟050100150200250300不吸烟吸烟不患病患病1)通过图形直观判断三维柱状图050100150200250300350不吸烟吸烟患肺癌不患肺癌不患病患病2)通过图形直观判断二维条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌不患病患病3)通过图形直观判断患病比例不患病比例问题1:吸烟与不吸烟,患病的可能性的大小是否有差异?吸烟者和不吸烟者患呼吸道疾病的可能性存在差异,吸烟者患呼吸道疾病的可能性大问题2:差异大到什么程度才能作出“吸烟与患病有关”的判断?问题3:能否用数量刻画出“有关”的程度?初步结论:思考交流:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。①数据整理;(列2×2联表)②做出相反的假设;(“患病与吸烟没有关系”)③计算;④查临界值表;⑤下结论。统计学对此类问题提供了这样的方法:①数据整理;(列2×2联表)②做出相反的假设;(“患病与吸烟没有关系”)③计算;④查临界值表;⑤下结论。))()()(()(22dbcadcbabcadn)(为样本量dcban2统计学对此类问题提供了这样的方法:2`吸烟与患呼吸道疾病关系列联表患病不患病总计吸烟aba+b不吸烟cdc+d总计a+cb+da+b+c+d1、列2×2联表H0:吸烟和患呼吸道疾病没有关系通过数据和图表分析,得到结论是:吸烟与患呼吸道病有关结论的可靠程度如何?2、做出相反的假设3、计算2吸烟的人中患病的比例:baa不吸烟的人中患病的比例:dcc吸烟与患呼吸道疾病关系列联表患病不患病总计吸烟aba+b不吸烟cdc+d总计a+cb+da+b+c+dac≈,a+bc+dac+d≈ca+b,若H0成立0bcad吸道疾病关系越弱;越小,说明吸烟与患呼||bcad吸道疾病关系越强;越大,说明吸烟与患呼||bcad作为检验在多大程度上可以认为“两个变量有关系”的标准。dcban其中dbcadcbabcadn22统计学家为了消除样本量对上式的影响,引入了卡方统计量2通过公式计算8634.1129522045758183212743751522吸烟与患呼吸道疾病列联表患病不患病总计吸烟37183220不吸烟21274295总计58457515dcban其中dbcadcbabcadn224、查表1)如果P(10.828)=0.001表示有99.9%的把握认为”X与Y”有关系;2)如果P(7.879)=0.005表示有99.5%的把握认为”X与Y”有关系;3)如果P(6.635)=0.01表示有99%的把握认为”X与Y”有关系;4)如果P(5.024)=0.025表示有97.5%的把握认为”X与Y”有关系;5)如果P(3.841)=0.05表示有95%的把握认为”X与Y”有关系;6)如果P(2.706)=0.10表示有90%的把握认为”X与Y”有关系;7)如果P(≤2.706),就认为没有充分的证据显示”X与Y”有关系;2222222已知在成立的情况下,0H故有99.9%的把握认为H0不成立,即有99.9%的把握认为“患呼吸道疾病与吸烟有关系”。以下001.0)8634.11(2P5、下结论例4.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175秃顶.分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?秃顶与患心脏病列联表患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437患心脏病患其他病秃顶不秃顶0100200300400500600秃顶不秃顶有99%的把握认为“秃顶与患心脏病有关”221437(214597175451)16.3736.6353891048665772例5为考察高中生的性别与是否喜欢数学课程之间的关系。在某城市的某校高中生随机抽取300名学生。得到如下列联表:性别与喜欢数学课程列联表喜欢不喜欢总计男3785122女35143178总计72228300由表中数据计算得到的观测值≈4.514。能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?22解:在假设“性别与是否喜欢数学课程之间没有关系”的前提下,应该很小,并且而我们所得到的的观测值超过3.841,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”。2222(3.841)0.05P24.514练习:甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下列联表:优秀不优秀总计甲班103545乙班73845总计177390画出列联表的条形图,并通过图形判断成绩与班级是否有关.利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。由图及表直观判断,好像“成绩优秀与班级有关系”,由表中数据计算,得的观察值为。由教科书中表1-12,得从而由50%的把握认为“成绩优秀与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。220.6530.4552(0.455)0.50P100%90%80%70%60%50%40%30%20%10%0%优秀不优秀列联表的条形图:小结:1、独立性检验的基本思想2、独立性检验是用统计量研究一类问题的方法。23、用统计量研究问题的步骤2由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用进行独立性检验,可以对推断的正确性的概率作出估计,样本量n越大,估计越准确。2作业:P94习题3.2第一题第二题