[自主梳理]一、2×2列联表设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1.通过观察得到下表所示数据:BAB1B2总计A1aba+bA2cdc+d总计a+cb+dn=a+b+c+d并将形如此表的表格称为2×2列联表.根据2×2列联表中的数据判断两个变量A,B是否独立的问题称为2×2列联表的独立性检验.若an=________________,则可以认为A1与B1独立;若bn=________________,则可以认为A1与B2独立;若cn=________________,则可以认为A2与B1独立;若dn=________________,则可以认为A2与B2独立.a+ca+bn2a+bb+dn2a+cc+dn2b+dc+dn2二、独立性检验的方法统计学中,常用χ2=nad-bc2a+bc+da+cb+d的大小对变量的独立性进行检验.(1)当χ2≤2.706时,没有充分证据判定变量A、B有关联,可以认为变量A、B是没有关联的;(2)当χ22.706时,有________的把握判定变量A、B有关联;(3)当χ23.841时,有________的把握判定变量A、B有关联;(4)当χ26.635时,有________的把握判定变量A、B有关联.90%95%99[双基自测]1.下面是2×2列联表:y1y2合计x1a2173x272027合计b41100则表中a、b处的值分别为()A.94、96B.52、40C.52、59D.59、52C解析:∵a+21=73,∴a=52.∴b=a+7=52+7=59.2.分类变量X和Y的列联表如下,则()Y1Y2总计X1aba+bX2cdc+d总计a+cb+da+b+c+dA.ad-bc越小,说明X与Y的关系越弱B.ad-bc越大,说明X与Y的关系越强C.(ad-bc)2越大,说明X与Y的关系越强D.(ad-bc)2越接近于0,说明X与Y的关系越强C解析:∵χ2=nad-bc2a+bc+da+cb+d,∴(ad-bc)2越大,χ2越大,说明X与Y的关系越强探究一2×2列联表[例1]在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,试作出性别与色盲的列联表.[解析]根据题目所给的数据作出如下的列联表:色盲性别患色盲不患色盲总计男38442480女6514520总计449561000分清类别是作列联表的关键步骤,对所给数据要明确属于那一类.1.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.试作出2×2列联表.解析:列联表如下:性格情况考前心情是否紧张性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941020探究二独立性检验的应用[例2]某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?其他科目数学物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.[解析](1)列出数学与物理优秀的2×2列联表如下:物理数学优秀非优秀总计优秀228132360非优秀143737880总计3718691240利用上表数据得χ2=nad-bc2a+bc+da+cb+d=1240×228×737-143×1322371×869×360×880≈270.1143.(2)列出数学与化学优秀的2×2列联表如下:化学数学优秀非优秀总计优秀225135360非优秀156724880总计3818591240利用上表数据得χ2=nad-bc2a+bc+da+cb+d=1240×225×724-156×1352381×859×360×880≈240.6112.(3)列出数学与总分优秀的2×2列联表如下:总分数学优秀非优秀总计优秀26793360非优秀99781880总计3668741240利用上表数据得χ2=nad-bc2a+bc+da+cb+d=1240×267×781-99×932366×874×360×880≈486.1225由以上分析知:数学成绩优秀与物理、化学、总分优秀都有关系.由于各自的χ2值均大于6.635,由此说明有99%的把握认为数学优秀与物理、化学、总分优秀都有关系,但与总分关系最大,物理其次.2.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.P(χ2≥k0)0.0500.0100.001附:k03.8416.63510.828χ2=nad-bc2a+bc+da+cb+d.解析:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500×100%=14%.(2)χ2=500×40×270-30×1602200×300×70×430≈9.967.由于9.9676.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.统计与独立性检验的综合问题[典例](本题满分12分)我校为了了解高二年级学生参加体育活动的情况,随机抽取了100名高二年级学生进行调查.下面是根据调查结果绘制的学生日均参加体育活动时间的频率分布直方图:将日均参加体育活动时间不低于40分钟的学生称为参加体育活动的“积极分子”.根据已知条件完成下面的列联表,并据此资料回答是否有95%的把握判定参加体育活动的“积极分子”与性别有关?非积极分子积极分子总计男1545女总计[解析]由频率分布直方图可知,在抽取的100人中,“积极分子”有25人,从而2×2列联表如下:非积极分子积极分子总计男301545女451055总计75251006分由2×2列联表中数据代入公式计算,得:χ2=nad-bc2a+cb+da+bc+d=100×30×10-45×15275×25×45×55=10033≈3.030.10分因为3.0303.841,所以没有95%的把握判定参加体育活动的“积极分子”与性别有关.12分[规范与警示]由频率分布直方图正确写出2×2列联表,不能混淆数据,易失分.计算χ2,计算要准确,计算不准确会导致失分.根据χ2的值得出结论,注意这个概率是“结论”正确的概率(也叫结论的可信度),而不是事件发生的概率.