3.2独立性检验的基本思想及其初步应用我们经常听到这些说法:吸烟对患肺癌有影响;数学好的人物理一般也很好;是否喜欢数学课程与性别之间有关系;人的血型会决定人的性格;星座与人的命运之间有某种联系.这些说法都有道理吗?探究1独立性检验的基本思想对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为.分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等.分类变量x是变量吗?y表示一年四季,则y的取值有哪些?y是变量吗?x表示性别,则x的取值有哪些?(2)分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义,如用“0”表示“男”,用“1”表示“女”.对分类变量的理解(1)分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等.不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965问题:为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:3-7吸烟与患肺癌列联表(单位:人)两个分类变量的频数表,称为列联表思考1:你如何由列联表中的数据判断吸烟是否对肺癌有影响?能不能从患肺癌的人数来判断?应该从什么量来判断?不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965问题:为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:3-7吸烟与患肺癌列联表(单位:人)在吸烟者中患肺癌的比重是_______.2.28%在不吸烟者中患肺癌的比重是_______,0.54%由计算结果,你会做出怎样的判断?你的判断一定正确吗?能知道判断犯错误的概率是多少吗?等高条形图患肺癌比例不患肺癌比例思考2:除了用比例来判断吸烟是否对患肺癌有影响外?还有其它方法来判断吗?(1)观察等高条形图,你得到什么结论?(2)你的判断一定正确吗?能知道判断的正确率是多少吗?思考3:通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.但是我们不知道我们判断的正确率有多大,那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?为了回答上述问题,我们先假设:H0:吸烟与患肺癌没有关系.用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”独立,即假设H0等价于P(AB)=P(A)×P(B).3-8吸烟与患肺癌列联表(单位:人)不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d把表3-7中的数字用字母代替,得到如下用字母表示的列联表思考4:(1)在表3-8中,事件AB发生的频数是什么?(3)事件B发生的频数是什么?(2)事件A发生的频数是什么?(4)P(AB)、P(A)、P(B)分别是什么?它们之间有什么关系?(5)|ad-bc|越小,说明什么问题?|ad-bc|越大,说明什么问题?abacaa+ba+caP(A)≈,P(B)≈,P(AB)≈nnn其中n=a+b+c+dadbcaa+ba+c≈×nnn即(a+b+c+d)a=(a+b)(a+c)即0.adbcad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强为使不同的样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量其中n=a+b+c+d为样本容量.(1)))()()(()(22dbcadcbabcadnK思考5:(2)K2越大,说明什么问题?(1)K2越小,说明什么问题?结论:若H0成立,即“吸烟与患肺癌没有关系”,则K2应该很小.不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965请根据表3-7中的数据,利用公式(1)计算K2的观测值22K9965(777549422099)k56.632.78172148987491上面探究中,的观测值为3-7吸烟与患肺癌列联表(单位:人)思考6:这个值到底是大还是小,它能告诉我们什么呢?成立的条件下现,在统计学家经过研究后发0H(2)式说明,在H0成立的情况下,K2的观测值超过6.635的概率非常小,近似为0.01,所以K2≥6.635是一个小概率事件,基本不发生.(2)01.0)635.6(2KP思考7:(1)我们计算的K2的观测值k≈56.632,远远大于6.635,它发生的概率大不大?是不是一个小概率事件?(2)你觉H0成立吗?(3)你的判断会犯错误吗?犯错误的概率有多大?(4)上述的方法相比于之前讲的两种方法,它有什么优势?(5)你能总结上述检验方法及它的一般步骤吗?(5)你能总结上述检验方法及它的一般步骤吗?结论:在上述过程中,实际上是借助于随机变量K2的观测值k建立了一个判断H0是否成立的规则:如果k≥6.635,就判断H0不成立,即认为吸烟与患肺癌有关系;否则,就判断H0成立,即认为吸烟与患肺癌没有关系.在该规则下,把结论“H0成立”错判成“H0不成立”的概率不会超过0.01,即有99%的把握认为不成立.一般步骤:①假设两个分类变量X与Y没有关系.②计算出K2的观测值k.③判断k的值的大小,即k是不是一个小概率事件,从而确定X与Y有关的程度或无关系.结论:这种判断两个分类变量是否有关系的方法称为“独立性检验”1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.思考8:独立性检验与反证法有何异同?反证法独立性检验假设命题的结论不正确假设H0:两个分类变量X,Y没有关系在假设的前提下,推出矛盾在H0成立的条件下,得到一个小概率事件所以假设不成立,原命题成立所以H0不成立,即两个分类变量X,Y有关系2.独立性检验的一般步骤①假设两个分类变量X与Y没有关系.②计算出K2的观测值k.③判断k的值的大小,即k是不是一个小概率事件,从而确定X与Y有关的程度或无关系.问题1:如何判断K2的观测值k是大还是小呢?这仅需确定一个正数k0,当k≥k0时就认为K2的观测值k大.此时相应于的判断规则为:如果k≥k0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的k0为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为P(K2≥k0).在实际应用中,我们把k≥k0解释为有(1-P(K2≥k0))×100%的把握认为“两个分类变量之间有关系”;把k<k0解释为不能以(1-P(K2≥k0))×100%的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8282()PKkk(1)10.828,99.9%kXY如果就有的把握认为与有关系(2)7.879,99.5%kXY如果就有的把握认为与有关系(3)6.635,99%kXY如果就有的把握认为与有关系(4)5.024,97.5%kXY如果就有的把握认为与有关系(5)3.841,95%kXY如果就有的把握认为与有关系(6)2.706,90%kXY如果就有的把握认为与有关系(7)2.706,kXY如果就认为没有充分的证据显示与有关系问题2:如何用独立性检验的方法来检验两个分类变量X和Y是否有关系呢?一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:表3-92×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d若要推断的论述为Hl:X与Y有关系,可以按如下步骤判断结论Hl成立的可能性:若要推断的论述为Hl:X与Y有关系,可以按如下步骤判断结论Hl成立的可能性:1.计算满足条件X=x1的个体中具有Y=y1的个体所占的比例和满足条件X=x2的个体中具有Y=y2的个体所占的比例.两个比例的值相差越大,H1成立的可能性就越大.也可以通过画出等高条形图,粗略地判断两个分类变量是否有关系,但是以上两种判断无法精确地给出所得结论的可靠程度.baadcc2.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:.))()()(()()2(222kKdbcadcbabcadnK的观测值机变量由观测数据计算得到随,利用公式(3)如果k≥k0,就以(1-P(K2≥k0))×100%的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.①根据实际问题需要确定容许推断“两个分类变量有关系”犯错误的上界,然后查表3-11确定临界值;0k0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.82820()PKk0k表3-11临界值表例1、在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系;(2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?例题解析:思考:根据临界值表,在犯错误的概率不超过0.01的前提下,取的临界值是什么?患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437(1)相应的等高条形图如下所示,秃顶不秃顶不患心脏病患心脏病解:根据题目所给数据得到如下列联表:由图可认为秃顶与患心脏病有关系21437(214597175451)16.3736.635.3891048665772k因此,在犯错误的概率不超过0.01的前提下,认为秃顶与患心脏病有关系.(2)根据列联表中的数据,得到注意:在熟悉了独立性检验的基本原理后,我们在判断两个分类变量是否有关时,可以直接算出的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题。但是,借助于图形可以更直观地向非专业人士解释所得到的统计分析结果。:,300,1得到如下列联表名学生抽出中随机在某城市的某校高中生之间的关系与是否喜欢数学课程、为考察高中生的性别练习30022872178143351228537总计女男总计不喜欢数学课程喜欢数学课程联表性别与喜欢数学课程列表123??.513.42为什么否有关系否喜欢数学课程之间是高中生的性别与是由表中数据计算得K:,.%95:具体过程如下验的基本思想据是独立性检作出这种判断的依课之间有关系”喜欢数学以上把握认为“性别与可以有约解.%95%.5.513.4.05.0841.3:841.3222有关系性别与喜欢数学课之间认为的把握所以,约有性约为且这种判断出错的可能间有关系”成立,并“性别与喜欢数学课之我们应该断定理,根据假设检验的基本原发生这表明小概率事件,而由样本数据计算得是一个小概率事件事件,因此的概率为于事件课之间没有关系”,由假设“性别与喜欢数学AKAKPKA练习2、在研究某种新药对小白兔的防治效果时,得到下表数据:存活数死亡数总计未用新药10138139用新药12920149总计23058288试分析新药对防治小白兔是否有效?228810120381298.6587.87913914923058k有99.5%的把握判定新药对防治小白兔是有效的.解:练习3、打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?患心脏病未患心脏病总计每一晚都打鼾30224254不打鼾2413551379总计54157916