独立性检验的基本思想及初步应用杨占林一.(导)为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)表3-7吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么吸烟是否对患肺癌有影响吗?像表3一7这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中,有0.54%患有肺癌;在吸烟者中,有2.28%患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3.2一1是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.图3.2一2是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.二.(思)为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量22nadbcKabcdacbd其中nabcd为样本容量.三.(议)利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?在实际应用中,要在获取样本数据之前通过下表确定临界值:表3一10四.(展)例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系.(2)能够以99%的把握认为秃顶与患心脏病有关系吗?为什么?五.(评)例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:表3一12性别与喜欢数学课程列联表喜欢数学课程不喜欢数学课程总计男3785122女3514317820()PKk0.500.400.250.150.100.050.0250.0100.0050.0010k0.4550.7081.3232.0721.3232.7063.8415.0246.63510.828总计72228300由表中数据计算得2K的观测值4.514k.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.六.(检)例题:打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?患心脏病未患心脏病合计每一晚都打鼾30224254不打鼾2413551379合计5415791633规律小结(1)三维柱形图与二维条形图(2)独立性检验的基本思想(3)独立性检验的一般方法