主讲人秦真1、了解独立性检验的基本思想、方法及其初步应用。2、会从列联表(只要求2×2列联表)、条形图直观分析两个分类变量是否有关3.会用公式判断两个分类变量在某种程度上的相关性一、目标展示问题:数学家庞加莱每天都从一家面包店买一块1000g的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。•假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于1000g;•“这个平均值不大于950g”是一个与假设“面包分量足”矛盾的小概率事件;•这个小概率事件的发生使庞加莱得出推断结果。相关概念这种变量的不同“值”表示个体所属的不同类别,这类变量称为分类变量分类变量性别变量,取值为:男、女请举出几个分类变量的例子试一试01为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)那么吸烟是否会对患肺癌有影响?不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965吸烟与患肺癌列联表(列出两个分类变量的频数表):在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是0.54%2.28%直观上的结论:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计98749199651.列联表二、自主合作0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌等高条形图更清晰地表达了两种情况下患肺癌的比例,可以直观地得出吸烟与患肺癌有关2.等高条形图有一个颠扑不破的真理,那就是当我们不能确定什么是真的时,我们就应该去探求什么是最可能的。笛卡尔我们能有多大把握认为“患病与吸烟有关”呢?将问题一般化三、探究解疑——独立性检验不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d假设H0:吸烟和患肺癌之间没有关系用A表示“不吸烟”,B表示“不患肺癌”则H0:吸烟和患肺癌之间没有关系P(AB)=P(A)P(B)等价于a+ba+caP(A)≈,P(B)≈,P(AB)≈nnn其中n=a+b+c+daa+ba+c≈×nnn不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+dadbc即0.adbcad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强22n(ad-bc)K=(a+b)(c+d)(a+c)(b+d)引入一个随机变量作为检验在多大程度上可以认为“两个变量有关系”的标准。若K2≥10.828则有99.9%的把握认为A与B有关若K2≥6.635则有99%的把握认为A与B有关上面这种利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.P(k2≥k0)0.0100.0050.001k06.6357.87910.828临界值表通过公式计算224220997817214898749156.6326.635K9965(777549)3.独立性检验不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计987491996522n(ad-bc)K=(a+b)(c+d)(a+c)(b+d)因此我们有99%的把握认为”吸烟与患肺癌有关系”第一步:H0:吸烟和患肺癌之间没有关系不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d第二步:列出2×2列联表4、独立性检验的步骤第三步:计算第四步:查临界值表,作出判断。))()()(()(22dcbadbcabcadnK独立性检验的基本思想类似于数学上的反证法.要确认”两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论”两个分类变量没有关系”成立.在该假设下我们构造的随机变量K2应该很小.如果由观测数据计算得到的K2的观测值k很大,则断言H0不成立,即认为“两个分类变量有关系”;如果观测值k很小,则说明在样本数据中没有发现足够证据拒绝H0.例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系(2)能否在犯错误概率不超过0.01的前提下认为秃顶与患心脏病有关系?例题分析利用excel做出图形判断解:根据题目所给数据得到如下列联表:患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437根据列联表中的数据,得到221437(214597175451)16.3736.635.3891048665772K所以在犯错误的概率不超过0.01的前提下认为“秃顶患心脏病有关”。链接2K4.513k(试一试)为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:喜欢数学课程不喜欢数学总计男3785122女35143178总计72228300由表中数据计算得到的观察值在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?链接由于4.5133.841,故有95%的把握认为二者有关四、反思提高——体验高考(2010新课标全国卷)为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:1.估计该地区老年人中,需要志愿者提供帮助的老年人的比例;2.能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?男女需要4030不需要160270链接7014%50022500(4027030160)9.96720030070430K(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为(2)做出列联表。由于9.9676.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关。男女总计需要403070不需要160270430总计200300500链接课堂小结作业:教材习题3.21,2知识层面上:独立性检验的基本思想,实施步骤思想方法上:数形结合的思想,类比的思想1.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C.若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D.以上三种说法都不对.c当堂达标222.下面是一个列联表不健康健康总计不优秀a2173优秀22527总计b46100则表中a,b的值分别是()A.94,96B.52,50C.52,54D.54,52c3.在独立性检验中,当统计量满足时,我们有99%的把握认为这两个分类变量有关系.k2≥6.6354.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总计玩游戏18927不玩游戏81523总计262450则认为喜欢玩游戏与认为作业量多少有关系的把握大约为()A.99%B.97.5%C.90%D.无充分依据B5.某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:不健康健康总计不优秀41626667优秀37296333总计789221000请问有多大把握认为“高中生学习状况与生理健康有关”?27.61096.635K因此有99%的把握认为高中生学习状况与生理健康有关