引例:数学家庞加莱每天都从一家面包店买一块1000g的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的平均值为950g。于是庞加莱推断这家面包店的面包分量不足。•假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于1000g;•“这个平均值不大于950g”是一个与假设“面包分量足”矛盾的小概率事件;•这个小概率事件的发生使庞加莱得出推断结果。这种变量的不同取“值”表示个体所属的不同类别,这类变量称为分类变量分类变量对于性别变量,取值为:男、女分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0.54%2.28%1)通过图形直观判断两个分类变量是否相关:不患肺癌患肺癌不吸烟吸烟010002000300040005000600070008000不吸烟吸烟三维柱状图2)通过图形直观判断两个分类变量是否相关:0100020003000400050006000700080009000不吸烟吸烟患肺癌不患肺癌二维条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌3)通过图形直观判断两个分类变量是否相关:患肺癌比例不患肺癌比例通过数据和图表分析,得到结论是:吸烟与患肺癌有关结论的可靠程度如何?H0:假设吸烟和患肺癌之间没有关系吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+dac≈,a+bc+dac+d≈ca+b,adbc0.adbc即独立性检验22n(ad-bc)K=(a+b)(c+d)(a+c)(b+d)ad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强随机变量——卡方统计量(英国统计学家K.Pearson1900年提出)作为检验在多大程度上可以认为“两个变量有关系”的标准。独立性检验随机变量-----卡方统计量22(),()()()()其中为样本容量。nadbcKabcdacbdnabcd独立性检验0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8280k0)k2P(K临界值表828.102K635.62K706.22K22.706K0.1%把握认为A与B无关1%把握认为A与B无关99.9%把握认A与B有关99%把握认为A与B有关90%把握认为A与B有关10%把握认为A与B无关没有充分的依据显示A与B有关,但也不能显示A与B无关独立性检验的初步应用吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965通过公式计算2242209956.63278172148987491K9965(777549)已知在成立的情况下,0H2(6.635)0.01PK即在成立的情况下,K2大于6.635概率非常小,近似为0.010H现在的K2=56.632的观测值远大于6.635独立性检验的初步应用例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.请列出2×2列联表患心脏病没患心脏病总计秃顶没有秃顶总计解:2×2列联表如下21466545177259717514373891048例2.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300由表中数据计算得,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?2K≈4.513acdb解:在假设“性别与喜欢数学课程之间有关系”的前提下,事件的概率为2{3.841}K2(3.841)0.05,PK因此事件A是一个小概率事件。而由样本数据计算得的观测值k=4.514,即小概率事件A发生。因此应该断定“性别与喜欢数学课程之间有关系”成立,并且这种判断结果出错的可能性约为5%。所以,约有95%的把握认为“性别与喜欢数学课程之间有关系”。2K例3.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。未感冒感冒合计使用血清252248500未使用血清224276500合计4765241000试画出列联表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立性检验。解:设H0:感冒与是否使用该血清没有关系。075.7500500526474216242284258100022K因当H0成立时,K2≥6.635的概率约为0.01,故有99%的把握认为该血清能起到预防感冒的作用。P(k≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828P(k≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828有效无效合计口服584098注射643195合计12271193解:设H0:药的效果与给药方式没有关系。3896.19598711224064315819322K因当H0成立时,K2≥1.3896的概率大于15%,故不能否定假设H0,即不能作出药的效果与给药方式有关的结论。例4:为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的193个病人的数据,能否作出药的效果和给药方式有关的结论?P(k≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828例5:气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?有效无效合计复方江剪刀草18461245胆黄片919100合计27570345解:设H0:两种中草药的治疗效果没有差异。098.11100245702759161918434522K因当H0成立时,K2≥10.828的概率为0.001,故有99.9%的把握认为,两种药物的疗效有差异。分类变量之间关系条形图柱形图列联表独立性检验背景分析小结