•某医疗机构为了了解患肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9965个成年人,其中吸烟者2148人,不吸烟者7817人,调查结果是:吸烟的2148人中49人患肺癌,2099人不患肺癌;不吸烟的7817人中42人患肺癌,7775人不患肺癌。●根据这些数据能否断定:患肺癌与吸烟有关?吸烟与肺癌列联表患肺癌不患肺癌总计吸烟4920992148不吸烟4277757817总计9198749965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是0.54%2.28%1)通过图形直观判断不患肺癌患肺癌不吸烟吸烟010002000300040005000600070008000不吸烟吸烟三维柱状图2)通过图形直观判断0100020003000400050006000700080009000不吸烟吸烟患肺癌不患肺癌二维条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌3)通过图形直观判断患肺癌比例不患肺癌比例问题1:判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异?说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大问题2:差异大到什么程度才能作出“吸烟与患病有关”的判断?问题3:能否用数量刻画出“有关”的程度?独立性检验H0:吸烟和患肺癌之间没有关系通过数据和图表分析,得到结论是:吸烟与患肺癌有关结论的可靠程度如何?吸烟与肺癌列联表患肺癌不患肺癌总计吸烟aba+b不吸烟cdc+d总计a+cb+da+b+c+dac≈,a+bc+dac+d≈ca+b,adbc吸烟的人中患肺癌的比例:baa不吸烟的人中患肺癌的比例:dcc若H0成立独立性检验0.adbcad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量:卡方统计量作为检验在多大程度上可以认为“两个变量有关系”的标准。dcban其中dbcadcbabcadn22独立性检验通过公式计算吸烟与肺癌列联表患肺癌不患肺癌总计吸烟4920992148不吸烟4277757817总计9198749965632.5691987421487817209942497775996522独立性检验已知在成立的情况下,0H故有99.9%的把握认为H0不成立,即有99.9%的把握认为“患肺癌与吸烟有关系”。即在成立的情况下,大于10.828概率非常小,近似为0.0010H2现在的=56.632的观测值远大于10.828,出现这样的观测值的概率不超过0.001。2001.0)828.10(2P1)如果P(m10.828)=0.001表示有99.9%的把握认为”X与Y”有关系;2)如果P(m7.879)=0.005表示有99.5%的把握认为”X与Y”有关系;3)如果P(m6.635)=0.01表示有99%的把握认为”X与Y”有关系;4)如果P(m5.024)=0.025表示有97.5%的把握认为”X与Y”有关系;5)如果P(m3.841)=0.05表示有95%的把握认为”X与Y”有关系;6)如果P(m2.706)=0.10表示有90%的把握认为”X与Y”有关系;7)如果P(m≤2.706),就认为没有充分的证据显示”X与Y”有关系;y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2×2列联表适用观测数据a、b、c、d不小于5dbcadcbabcadn22)(2mP一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和2(如患病与不患病)。于是得到下列联表所示的抽样数据:类1类2总计类Aaba+b类Bcdc+d总计a+cb+da+b+c+d用统计量研究这类问题的方法称为独立性检验。2要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:(1)提出假设H0:Ⅰ和Ⅱ没有关系;(3)查对临界值,作出判断。(2)根据2×2列表与公式计算的值;2由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用进行独立性检验,可以对推断的正确性的概率作出估计,样本量n越大,估计越准确。2例1.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?未感冒感冒合计使用血清258242500未使用血清216284500合计4745261000