1.2独立性检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1.2独立性检验的基本思想及其初步应用对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.在日常生活中,主要考虑分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等.分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。表1-7吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)那么吸烟是否对患肺癌有影响?探究与表格相比,图形跟能直观地反映出两个变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.像表1-7这样列出两个分类变量的频数表,称为列联表.有吸烟和患肺癌列联表可以粗略估计出,在不吸烟者中,有0.54%患有肺癌;在吸烟者中,有2.28%患有肺癌。因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.等高条形图其中两个浅色条的高分别表示吸烟和不吸烟样本中不患肺癌的频率;两个深色条的高分别表示吸烟和不吸烟样本中患肺癌的频率,比较图中两个深色条的高可以发现,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟跟容易引发肺癌等高条形图更清晰地表达了两种情况下患肺癌的比例.0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么这种判断是否可靠?我们可以用统计观点来考察这个问题.H0:吸烟与患肺癌没有关系不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d把表1-7中的数字用字母代替,得到如下用字母表示的列联表(表1-8):为了回答上面的问题,我们先假设:看看能推出怎样的结论。表1-8|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;因此|ad-bc|越大,说明吸烟与患肺癌之间关系越强.如果“吸烟与患肺癌没有关系”,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即dccbaa)()(bacdca0bcad为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量若H0成立,即“吸烟与患肺癌没有关系”,则K2应很小.由表1-7中数据,利用公式(1)计算得K2的观测值为:22()()()()()nadbcKabcdacbd(1)29965(777549422099)56.632.78172148987491k其中n=a+b+c+d为样本容量.这个值到底能告诉我们什么呢?即在成立的情况下,K2大于6.635概率非常小,近似为0.010H现在的K2=56.632的观测值远大于6.635,所以有理由判定H0不成立,即认为“吸烟于患肺癌有关系”.但是这种判断还犯错误,犯错误的概率不会超过0.010统计学家经过研究发现,在H0成立的情况下,2(6.635)0.01PK在上述过程中,实际上是借助于随机变量K2的观测值k,建立一个判断H0是否成立的规则:如果k≥6.635,就判断H0不成立,即认为“吸烟与患肺癌有关系”;否则就判定H0成立,即认为“吸烟与患肺癌没有关系”在改规则下,把结论“H0成立”错判为“H0不成立”的概率不会超过,2(6.635)0.01PK这里概率计算的前提是H0成立上面解决问题的想法类似于反证法.要判断“两个分类变量有关系”,首先假设该结论不成立,即:H0:两个分类变量没有关系成立.在该假设下我们所构造的随机变量K²应该很小,如果有观测数据计算得到K²的观测值k很大,则断言H0不成立,即认为“两个分类变量有关系”,如果观测值很小,则说明在样本数据中没有发现足够的证据拒绝H0怎样判断K²的观测值k是大还是小呢?这仅需确定一个正数,当时就认为IK²的观测值k大,此时相应于的判断规则为:如果,就认为“两分类变量有关系”;否则就认为“两分类变量没有关系”.我们称这样的为一个判断规则的临界值.按照上述规则,把“两个分类变量没有关系”错误地判断为“两个分类变量有关系”的概率为0k0kk0k0kk)(02kKP0k独立性检验的基本思想:类似于数学上的反证法,对“两个分类变量有关系”这一结论成立的可信程度的判断:(1)假设该结论不成立,即假设结论“两个分类变量没有关系”成立.(2)在假设条件下,计算构造的随机变量K2,如果有观测数据计算得到的K2很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过(2)式评价假设不合理的程度,由实际计算出的k6.635,说明假设不合理的程度约为99%,即“两个分类有关系”这一结论成立的可信程度约为99%.上面这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2x2列联表)为:若要判断结论为:H1:“X与Y有关系”,如果通过直接计算或观察等高条形图发现和相差很大,就判段两个分类变量之间有关系.aabccd具体作法是:(1)根据实际问题需要的可信程度确定临界值k0;(2)由观测数据计算得到随机变量K2的观测值k;(3)如果kk0,就以(1-P(K2≥k0))×100%的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.502()PKk上面这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率,而利用独立性检验来考察两个分类变量是否有关系,能较精确地给出这种判断的可靠程度.(1)如果k10.828,就有99.9%的把握认为“X与Y有关系”;(2)如果k7.879,就有99.5%的把握认为“X与Y有关系”;(3)如果k6.635,就有99%的把握认为“X与Y有关系”;(4)如果k5.024,就有97.5%的把握认为“X与Y有关系”;(5)如果k3.841,就有95%的把握认为“X与Y有关系”;(6)如果k2.706,就有90%的把握认为“X与Y有关系”;(7)如果k=2.706,就认为没有充分的证据显示“X与Y有关系”.例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?解:根据题目所给数据得到如下列联表:患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437相应的等高条形图如图所示,从图中可以看出秃顶样本中患心脏病的频率明星高于不秃顶样本中换心脏病的频率,因此可以认为“秃顶与患心脏病有关”.0%10%20%30%40%50%60%70%80%90%100%秃顶不秃顶不患心脏病患心脏病根据列联表中的数据,得到:221437(214597175451)16.3736.635.3891048665772K所以有99%的把握认为“秃顶患心脏病有关”.

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功