学习目标1.会列2×2列联表,会画等高条形图2.会从2×2列联表,等高条形图中直观的判断出两个分类变量之间是否有关?3.了解独立性检验的基本思想和步骤研究两个变量的相关关系:定量变量:体重、身高、温度、考试成绩等等。变量分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等。两种变量:本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心分类变量的之间是否有关系2定量变量——回归分析(画散点图、相关系数r、变量相关指数R、残差分析)分类变量——独立性检验.,,,,,.,.,等等国籍宗教信仰否吸烟是例如分类变量是大量存在的生活中在现实像这类变量称为别类表示个体所属的不同值这种变量的不同其取值为男和女两种对于性别变量分类变量.??,.,等等影响有程数学课别对于是否喜欢性有关系吸烟与肺癌是否例如量之间是否有关系变我们常常关心两个分类在日常生活中:):(,9659,人单位结果得到如下人了肿瘤研究所随机地调查某癌有影响为调查吸烟是否对患肺探究996591987421484920997817427775总计吸烟不吸烟总计患肺癌不患肺癌吸烟与患肺癌列联表表71?有影响那么吸烟是否对患肺癌.:,.%28.2,;%54.0,:.,71在差异肺癌可能存烟者患吸烟者和不吸结论直观上可以得出因此患有肺癌有在吸烟者中患有肺癌有吸烟者中在不估计出表可以粗略癌情况的列联由吸烟情况和患肺称为频数表的样列出的两个分类变量这像表列联表•列联表•①定义:列出的两个分类变量的称为列联表.•②2×2列联表•一般地,假设两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(也称为2×2列联表)为下表.频数表{x1,x2}{y1,y2}.,况状反映出相关数据的总体能更直观地图三维柱形图和二维条形与表格相比.,12.1大小地看出各个频数的相对从中能清晰是列联表的三维柱形图图.,个柱体都能看到以使每择恰当的视角作三维柱形图要注意选010002000300040005000600070008000不患肺癌患肺癌吸烟不吸烟12.1图0100020003000400050006000700080009000不吸烟吸烟不患肺癌患肺癌22.1图.,.,,22.1肺癌的比例比例高于不吸烟者中患吸烟者中患肺癌的从图中可以看出癌的人数黑色条高表示患肺数条高表示不患肺癌的人其中绿色图是叠在一起的二维条形图32.1图0.000.100.200.300.400.500.600.700.800.901.00不吸烟吸烟.;,,32.1.,的百分比黑色的条高表示患肺癌的百分比癌绿色的条高表示不患肺在等高条形图中所示如图下患肺癌的比例高条形图表示两种情况我们还可用如下的等特征为了更清晰地表达这个在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上两个柱形高度的乘积相差越大,两个分类变量有关系的可能性就越大..等高条形图等高条形图与表格相比,更能直观地反映出两个分类变量间是否互相影响常用等高条形图展示列联表数据的频率特征.•1.2×2列联表是传统的调查研究中最常用的方法之一,用于研究两个变量之间相互独立还是存在某种关联性,它适用于分析两个变量之间的关系.•2.在实际问题中,判断两个分类变量的关系的可靠性时,一般利用随机变量K2来确定,而不利用三维柱形图和二维条形图.某企业为了考察同一种产品在甲、乙两条生产线的产品合格率,同时各抽取100件产品,其中甲线中合格产品的个数为97,乙线中合格产品的个数为95。请做出列联表,三维柱形图与二维条形图。合格不合格总计甲生产线973100乙生产线955100总计19282000102030405060708090100合格不合格甲生产线乙生产线0100200300合格不合格甲生产线乙生产线不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d假设吸烟与患肺癌没有关系,那么吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例差不多即()()0acacdcababcdadbcadbcadbc即因此越小说明吸烟与患肺癌之间关系越弱;因此越大说明吸烟与患肺癌之间关系越强。0H假设:吸烟与患肺癌没有关系独立性检验首先,假设结论不成立,即H:两个分类变量没有关系(在这种假设下k应该很小)其次,由观测数据计算K的观测值k,(如果k很大,则在一定可信程度上说明H不成立,即两个分类变量之间有关系)最后,根据k的值判断假设是否成立2临界值表:0.100.050.0250.0100.0050.0012.7063.8415.0246.6357.87910.82820()PKk0k002220:9965(777549422099)56.63278172148987491(10.828)0.00156.631KPK解:假设H吸烟与患肺癌没有关系的观测值为k根据临界值表可知远大于10.828,所以有理由判断H不成立,所以吸烟与患癌症有关系。这种判断可能有错误,但是犯错误的不会超过0.001,这是个小概率时间,我们有99.9%的把握认为“吸烟与患癌症有关系”22()()()()()nadbcabcdacbd为了是不同样本容量的数据有一个统一的标准,构造一个随即变量(a,b,c,d均必须大于5)K,其中n=a+b+c+d为样本容量2000HKkkk在假设成立的前提下,的观测值应该比较小因此,当很小时,说明在一定的可信程度上H成立;很大时,说明没有充分的证据说明H成立。k大小的标准是什么呢?0k临界值20002000当kk时,含义是有(1-P(Kk))100%的把握说明H不成立,而这种判断可能出错,出错的概率不会超过P(Kk)当kk时,含义是样本数据没有充分的理由证明H不成立独立性检验基本的思想类似反证法(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下随机变量K2应该很能小,如果由观测数据计算得到K2的观测值k很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患肺病B、从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C、若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推理出现错误D、以上三种说法都不对c1、理解分类变量,会作列联表及三维柱形图与二维条形图2、了解独立性检验的思想