第三章统计案例3.1独立性检验学习目标:1.了解分类变量、2×2列联表、随机变量χ2的意义.2.通过对典型案例的分析,了解独立性检验的基本思想方法.(重点)3.通过对典型案例的分析,了解两个分类变量的独立性检验的应用.(难点)自主预习探新知教材整理独立性检验阅读教材P77~P78例2以上部分,完成下列问题.1.卡方统计量χ2=nn11n22-n12n212n1+n2+n+1n+2,用χ2的大小可以决定是否拒绝原来的统计假设H0.如果算出的χ2值,就拒绝H0,也就是拒绝“事件A与B无关”,从而就认为它们是有关的了.较大2.两个临界值(1)当根据具体的数据算出的χ23.841时,有的把握说事件A与B有关;(2)当χ26.635时,有的把握说事件A与B有关,当χ2≤3.841时,认为事件A与B是的.95%99%无关1.判断(正确的打“√”,错误的打“×”)(1)分类变量中的变量与函数中的变量是同一概念.()(2)独立性检验的方法就是反证法.()(3)独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小.()【答案】(1)×(2)×(3)√2.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据可得出()A.种子是否经过处理与是否生病有关B.种子是否经过处理与是否生病无关C.种子是否经过处理决定是否生病D.有90%的把握认为种子经过处理与生病有关【解析】χ2=407×32×213-61×101293×314×133×274≈0.1643.841,即没有充足的理由认为种子是否经过处理跟生病有关.【答案】B3.若由一个2×2列联表中的数据计算得χ2=4.013,那么有__________的把握认为两个变量之间有关系.【解析】查阅χ2表知有95%的把握认为两个变量之间有关系.【答案】95%合作探究提素养【例1】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用n11n1+与n21n2+判断二者是否有关系.用2×2列联表分析两变量间的关系【精彩点拨】对变量进行分类→求出分类变量的不同取值→作出2×2列联表→计算n11n1+与n21n2+的值作出判断【解】饮食习惯与年龄2×2列联表如下:年龄在六十岁以上年龄在六十岁以下合计饮食以蔬菜为主432164饮食以肉类为主273360合计7054124将表中数据代入公式得n11n1+=4364≈0.67,n21n2+=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.2.作2×2列联表时,关键是对涉及的变量分清类别.1.上例中条件不变,尝试用|n11n22-n12n21|的大小判断饮食习惯与年龄是否有关.【解】将本例2×2列联表中的数据代入可得|n11n22-n12n21|=|43×33-21×27|=852.相差较大,可在某种程度上认为饮食习惯与年龄有关系.【例2】在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用.由χ2进行独立性检验未感冒感冒合计使用血清258242500未使用血清216284500合计4745261000【精彩点拨】独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.【解】假设感冒与是否使用该种血清没有关系.由列联表中的数据,求得χ2=1000×258×284-242×2162474×526×500×500≈7.075.χ2=7.075>6.635,P(χ2≥6.635)=0.01,故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.1.独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足n11n22-n12n21≈0,因此|n11n22-n12n21|越小,关系越弱;|n11n22-n12n21|越大,关系越强.2.独立性检验的具体做法(1)根据实际问题的需要确定允许推断“事件A与B有关系”犯错误的概率的上界α,然后查表确定临界值k0.(2)利用公式χ2=nn11n22-n12n212n1+n2+n+1n+2计算随机变量χ2.(3)如果χ2≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.2.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:患胃病未患胃病合计生活不规律60260320生活有规律20200220合计80460540根据以上数据判断40岁以上的人患胃病与生活规律有关吗?【解】由公式得χ2=54060×200-260×202320×220×80×460≈9.638.∵9.6386.635,∴有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.[探究问题]1.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?【提示】利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.独立性检验的综合应用2.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.879)≈0.005,哪种说法是正确的?【提示】两种说法均正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.【例3】为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.【精彩点拨】根据题中表格提供的数据,可通过求χ2的值进行判定.对于(1)(3)可依据古典概率及抽样方法分析求解.【解】(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)χ2=500×40×270-30×1602200×300×70×430≈9.967.由于9.9676.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法进行抽样,这比采用简单随机抽样方法更好.1.检验两个变量是否相互独立,主要依据是利用χ2=nn11n22-n12n212n1+n2+n+1n+2公式计算χ2的值,再利用该值与3.841,6.635两个值进行比较作出判断.2.χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.3.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.3.若两个分类变量x和y的列联表为:yxy1y2x1515x24010则x与y之间有关系的概率约为________.【解析】χ2=5+15+40+105×10-40×1525+1540+105+4015+10≈18.822.∵18.8226.635,∴x与y之间有关系的概率约为1-0.01=0.99.【答案】0.99当堂达标固双基1.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”()A.χ2=2.700B.χ2=2.710C.χ2=3.765D.χ2=5.014【解析】∵5.0143.841,故D正确.【答案】D2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女合计爱好402060不爱好203050合计6050110经计算得χ2=110×40×30-20×20260×50×60×50≈7.8.则正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”【解析】根据独立性检验的思想方法,正确选项为C.【答案】C3.在一个2×2列联表中,由其数据计算得χ2=13.097,认为“两个变量有关系”犯错误的概率不超过________.【解析】如果χ26.635时,认为“两变量有关系”犯错误的概率不超过0.01.【答案】0.014.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是________.【解析】由研究的问题可知,需收集的数据应为男正教授人数,女正教授人数,男副教授人数,女副教授人数.【答案】男正教授人数,女正教授人数,男副教授人数,女副教授人数5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将下面的2×2列联表补充完整;晚上白天合计男婴女婴合计(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?【解】(1)晚上白天合计男婴243155女婴82634合计325789(2)由所给数据计算得:χ2=89×24×26-31×8255×34×32×57≈3.6892.706.根据临界值表知P(χ2≥2.706)≈0.10.因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.