.,,,,,.,.,等等国籍宗教信仰否吸烟是例如分类变量是大量存在的生活中在现实像这类变量称为别类表示个体所属的不同值这种变量的不同其取值为男和女两种对于性别变量分类变量.??,.,等等影响有程数学课别对于是否喜欢性有关系吸烟与肺癌是否例如量之间是否有关系变我们常常关心两个分类在日常生活中:):(,9659,人单位结果得到如下人了肿瘤研究所随机地调查某癌有影响为调查吸烟是否对患肺探究996591987421484920997817427775总计吸烟不吸烟总计患肺癌不患肺癌吸烟与患肺癌列联表表71?有影响那么吸烟是否对患肺癌.:,.%28.2,;%54.0,:.,71在差异肺癌可能存烟者患吸烟者和不吸结论直观上可以得出因此患有肺癌有在吸烟者中患有肺癌有吸烟者中在不估计出表可以粗略癌情况的列联由吸烟情况和患肺称为频数表的样列出的两个分类变量这像表列联表•列联表•①定义:列出的两个分类变量的称为列联表.•②2×2列联表•一般地,假设两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(也称为2×2列联表)为下表.频数表{x1,x2}{y1,y2}.,况状反映出相关数据的总体能更直观地图三维柱形图和二维条形与表格相比.,12.1大小地看出各个频数的相对从中能清晰是列联表的三维柱形图图.,个柱体都能看到以使每择恰当的视角作三维柱形图要注意选010002000300040005000600070008000不患肺癌患肺癌吸烟不吸烟12.1图0100020003000400050006000700080009000不吸烟吸烟不患肺癌患肺癌22.1图.,.,,22.1肺癌的比例比例高于不吸烟者中患吸烟者中患肺癌的从图中可以看出癌的人数黑色条高表示患肺数条高表示不患肺癌的人其中绿色图是叠在一起的二维条形图32.1图0.000.100.200.300.400.500.600.700.800.901.00不吸烟吸烟.;,,32.1.,的百分比黑色的条高表示患肺癌的百分比癌绿色的条高表示不患肺在等高条形图中所示如图下患肺癌的比例高条形图表示两种情况我们还可用如下的等特征为了更清晰地表达这个•1.2×2列联表是传统的调查研究中最常用的方法之一,用于研究两个变量之间相互独立还是存在某种关联性,它适用于分析两个变量之间的关系.•2.在实际问题中,判断两个分类变量的关系的可靠性时,一般利用随机变量K2来确定,而不利用三维柱形图和二维条形图.不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d假设吸烟与患肺癌没有关系,那么吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例差不多即()()0acacdcababcdadbcadbcadbc即因此越小说明吸烟与患肺癌之间关系越弱;因此越大说明吸烟与患肺癌之间关系越强。0H假设:吸烟与患肺癌没有关系22()()()()()nadbcabcdacbd为了是不同样本容量的数据有一个统一的标准,构造一个随即变量(a,b,c,d均必须大于5)K,其中n=a+b+c+d为样本容量2000HKkkk在假设成立的前提下,的观测值应该比较小因此,当很小时,说明在一定的可信程度上H成立;很大时,说明没有充分的证据说明H成立。k大小的标准是什么呢?0k临界值独立性检验首先,假设结论不成立,即H:两个分类变量没有关系(在这种假设下k应该很小)其次,由观测数据计算K的观测值k,(如果k很大,则在一定可信程度上说明H不成立,即两个分类变量之间有关系)最后,根据k的值判断假设是否成立2临界值表:0.500.400.250.150.100.050.0250.0100.0050.0010.4450.7081.3232.0722.7063.8415.0246.6357.87910.82820()PKk0k20002000当kk时,含义是有(1-P(Kk))100%的把握说明H不成立,而这种判断可能出错,出错的概率不会超过P(Kk)当kk时,含义是样本数据没有充分的理由证明H不成立02220:9965(777549422099)56.63278172148987491(10.828)0.00156.631KPK解:假设H吸烟与患肺癌没有关系的观测值为k根据临界值表可知远大于10.828,所以有理由判断H不成立,所以吸烟与患癌症有关系。这种判断可能有错误,但是犯错误的不会超过0.001,这是个小概率时间,我们有99.9%的把握认为“吸烟与患癌症有关系”独立性检验基本的思想类似反证法(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下随机变量K2应该很能小,如果由观测数据计算得到K2的观测值k很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患肺病B、从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C、若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推理出现错误D、以上三种说法都不对c例2为了考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随即抽取300名学生,得到如下列联表:喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300))()()(babc-adn22dbcadc()(17812222872)358514337(30024.514k222(3.841)0.054.5143.841PKKk解:在假设“性别与是否喜欢数学之间没有关系”的前提下,K应该很小,并且而的观测值超过了,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”这一结论只适用于被调查的学校由表中数据计算得到的观测值。能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?2K4.514k•二、填空题•5.如果K2的观测值k为8.654,可推断“X与Y有关”犯错误的概率不超过______.•[答案]0.005•[解析]k=8.654>7.879,就推断“X与Y有关”犯错误的概率不超过0.005.•练习有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表•试问能有多大把握认为“成绩与班级有关系”?优秀不优秀总计甲班103545乙班73845总计177390K2=90×(10×38-7×35)217×73×45×45=0.653,0.653<6.635,所以没有充分证据认为成绩与班级有关.•2.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过()•A.0.25B.0.75•C.0.025D.0.975•[答案]C•[解析]通过查表确定临界值k.当k>k0=5.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.1、理解分类变量,会作列联表及三维柱形图与二维条形图2、了解独立性检验的思想