1.判断分类变量及其关系的方法:(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.(2)一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大.分类变量关系的分析aabccd2.分析分类变量关系的步骤:(1)作大量的调查、研究,统计出结果.(2)列出列联表利用频率粗略估计.(3)作出等高条形图,从直观上进一步判断分类变量之间的关联关系.通过等高条形图可以粗略地判断两个分类变量是否有关系,但无法精确地给出所得结论的可靠程度.【例1】从发生交通事故的司机中抽取2000名司机作随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:试分析血液中含有酒精与对事故负有责任是否有关系.【审题指导】题目已给出了2×2列联表,可利用等高条形图定性分析两个分类变量之间的相关性.【规范解答】作等高条形图如下,图中阴影部分表示有酒精负责任与无酒精负责任的比例,从图中可以看出,两者差距较大,由此我们可以在某种程度上认为“血液中含有酒精与对事故负有责任”有关系.有关“相关性检验”解决一般的独立性检验问题的步骤:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查下表确定临界值k0.(2)根据2×2列联表,利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.22nadbcKabcdac(bd)通常认为k2.706时,样本数据就没有充分的证据显示“X与Y有关系”.【例2】某企业为了更好地了解设备改造与生产合格品的关系,随机抽取了180件产品进行分析,其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件,根据上面的数据,你能得出什么结论?【审题指导】可先由题中已给数据,列出2×2列联表,再计算K2的值作出判断.【规范解答】由已知数据列出2×2列联表如下:由2×2列联表中的数据,得K2的观测值为≈12.3810.828,所以在犯错误的概率不超过0.001的前提下认为“生产合格品与设备改造有关系”.218065493036k958510179【例】为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:【审题指导】解答第(2)问时,可先计算K2的值,再对照表格作出判断.22nadbcKabcdac(bd)【规范解答】(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为(2)≈9.967.由于9.9676.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关.7014%.500=225004027030160K20030070430=(3)由(2)的结论知,该地区的老年人是否需要志愿者提供帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,这比采用简单随机抽样方法更好.独立性检验的综合应用判断变量X与Y有无关系的三种方法:(1)2×2列联表:由2×2列联表中|ad-bc|的大小判断.(2)等高条形图:观察条形图中的阴影比例大小判断.(3)独立性检验:计算K2的观测值k,再利用临界值的大小判断.其中独立性检验的方法相对较准确.【例3】为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、等高条形图、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?【审题指导】本题要求分别用列联表、等高条形图、独立性检验的方法分析,要注意三种方法的判断思路.【规范解答】(1)2×2列联表如下:由列联表可得|ad-bc|=|982×17-493×8|=12750.相差较大,可在某种程度上认为“质量监督员甲是否在现场与产品质量有关系”.(2)画等高条形图.如图可知,在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.(3)由2×2列联表中数据,计算得到K2的观测值为因此,在犯错误的概率不超过0.001的前提下,认为质量监督员甲在不在生产现场与产品质量好坏有关系.21500982174938k13.09710.828,990510147525【典例】(12分)(1)下表是某地区的一种传染病与饮用水的调查表:这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.【审题指导】(1)根据表中的信息计算K2的观测值,并根据临界值表来分析相关性的大小,对于(2)要列出2×2列联表,方法同(1).【规范解答】(1)假设H0:传染病与饮用水无关.把表中数据代入公式得:K2的观测值≈54.21,…………3分∵54.2110.828,所以拒绝H0.因此在犯错误的概率不超过0.001的前提下认为该地区这种传染病与饮用不干净水有关.……………………………………5分28305221846694k146684518312(2)依题意得2×2列联表:此时,K2的观测值≈5.785.…………9分由于5.7852.706所以在犯错误的概率不超过0.1的前提下认为该种疾病与饮用不干净水有关.…………………………………………………10分286522509k14725531两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中在犯错误的概率不超过0.001的前提下肯定结论的正确性,(2)中在犯错误的概率不超过0.1的前提下肯定结论的正确性.…………………………………………………12分【误区警示】对解答本题时易犯错误具体分析如下:1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是()(A)100个吸烟者中至少有99人患有肺癌(B)1个人吸烟,那么这个人有99%的概率患有肺癌(C)在100个吸烟者中一定有患肺癌的人(D)在100个吸烟者中可能一个患肺癌的人也没有【解析】选D.独立性检验的结果与实际问题有差异,即独立性检验的结论是一个数学统计量,它与实际问题中的确定性存在差异.2.分类变量X和Y的列联表如下,则()(A)ad-bc越小,说明X与Y的关系越弱(B)ad-bc越大,说明X与Y的关系越强(C)(ad-bc)2越大,说明X与Y的关系越强(D)(ad-bc)2越接近于0,说明X与Y的关系越强【解析】选C.由K2的计算公式可知,(ad-bc)2越大,则K2越大,故相关关系越强.3.若由一个2×2列联表中的数据计算得K2=4.013,则两个变量有关系的概率为_____.【解析】因随机变量K2的观测值k=4.0133.841.所以在犯错误的概率不超过0.05的前提下,认为两个变量有关系.答案:0.954.根据下表计算k≈_____.【解析】根据列联表中的数据得K2的观测值≈1.78.答案:1.782nadbckabcdac(bd)23923916715729196196683245.运动员参加比赛前往往做热身运动,下表是一体育运动的研究机构对160位专业运动员追踪而得的数据,试问:由此数据,你认为运动员受伤与不做热身运动有关吗?•思考题4在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.•(1)根据以上数据建立一个2×2的列联表;•(2)试判断性别与休闲方式是否有关系