3.2独立性检验的基本思想及其应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

3.2独立性的基本思想及其初步应用这种变量的不同取“值”表示个体所属的不同类别,这类变量称为分类变量分类变量对于性别变量,取值为:男、女分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。注意:分类变量的取值一定是离散的吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)2×2列联表在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0.54%2.28%等高条形图展示列联表数据的频率特征在吸烟样本中患病的频率要高一些,因此直观上认为吸烟更容易引发患病,即“吸烟与患病有关”0%10%20%30%40%50%60%70%80%90%100%吸烟不吸烟不患病患病能有多大把握认为吸烟与患病有关呢?不吸烟吸烟独立性检验第一步:假设H0:吸烟和患病之间没有关系通过数据和图表分析,得到结论是:吸烟与患病有关结论的可靠程度如何?不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d第二步:列出2×2列联表用K2统计量研究这类问题的方法步骤记A表示不吸烟,记B表示不患肺癌P(AB)=P(A)P(B)nbaAP)(ncaBP)(naABP)(ncanbana))(()(cabaadcba不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d22n(ad-bc)K=(a+b)(c+d)(a+c)(b+d)0.adbcad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强作为检验在多大程度上可以认为“两个变量有关系”的标准。第三步:引入一个随机变量:卡方统计量dcban其中第四步:查对临界值表,作出判断。P(≥K0)0.500.400.250.150.100.050.0250.0100.0050.001K00.4550.7081.3232.0722.7063.8415.0246.6357.87910.8282Kadbc独立性检验通过公式计算632.5691987421487817209942497775996522K解:假设H0:吸烟和患病之间没有关系吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965故在犯错误的概率不超过0.01的前提下断定吸烟与患病有关即在成立的情况下,大于6.635概率非常小,近似为0.01,是个小概率事件。0H2K已知在成立的情况下,0H01.0)635.6(2KP现在的=56.632的值远大于6.635,所以有理由判定不成立,即认为“吸烟与患病有关系”,但这种判断会犯错误,犯错误的概率不会超过0.012K0HP(≥K0)0.500.400.250.150.100.050.0250.0100.0050.001K00.4550.7081.3232.0722.7063.8415.0246.6357.87910.8282K即有99%的把握认为不成立。0H反证法原理与独立性检验原理反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。独立性检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。独立性检验的定义上面这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为独立性检验。独立性检验的基本思想:类似于数学上的反证法,对“两个分类变量有关系”这一结论成立的可信程度的判断:(1)假设该结论不成立,即假设结论“两个分类变量没有关系”成立.(2)在假设条件下,计算构造的随机变量K2,如果有观测数据计算得到的K2很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过(2)式评价假设不合理的程度,由实际计算出的k6.635,说明假设不合理的程度约为99%,即“两个分类有关系”这一结论成立的可信程度约为99%.在实际应用中,要在获取样本数据之前通过下表确定临界值:0.500.400.250.150.100.4550.7081.3232.0722.7060.050.0250.0100.0050.0013.8415.0246.6357.87910.8280)k2P(K0k0k0)k2P(K具体作法是:(1)根据实际问题需要的可信程度确定临界值;(2)利用公式(1),由观测数据计算得到随机变量观测值k;(3)如果,就以的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据。0k2K0kk20(1())100%PKk例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。(1)利用图形判断秃顶与患心脏是否有关系;(2)能否在犯病错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?患心脏病患其他病合计秃顶214175389不秃顶4515971048合计6657721437解:根据已知的数据得到如下的列联表:0%10%20%30%40%50%60%70%80%90%100%秃顶不秃顶患其他病患心脏病由等高条形图可知:秃顶样本中患心脏病的频率明显高于不秃顶样本中患心脏病的频率,因此认为秃顶与患心脏病有关系。因当H0成立时,K26.635的概率约为0.01,故有99%的把握认为秃顶与患心脏病有关系。因此,在犯错误不超过0.01的前提下认为秃顶与患心脏病有关系。(2)设H0:秃顶与患心脏病没有关系。635.6373.167726651048389451175597214143722K患心脏病患其他病合计秃顶214175389不秃顶4515971048合计6657721437课堂练习:1.调查男女学生购买食品时是否看出厂日期与性别有无关系时,最有说服力的是()A.期望B.方差C.正态分布D.独立性检验D2.10名学生在一次数学考试中的成绩如下表:要研究这10名学生成绩的平均情况,则最能说明问题的是()A.概率B.期望C.方差D.独立性检验分数100115120125人数2431B3.2×2列联表:则表中a、b处的值分别为()A.94、96B.52、50C.52、59D.54、52y1y2合计x1a2173x272027合计b41100C4.若两个分类变量x和y的列联表为:则x与y之间有关系的概率约为________.y1y2x1615x2401099%5.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?未感冒感冒合计使用血清258242500未使用血清216284500合计4745261000解:设H0:感冒与是否使用该血清没有关系。075.750050052647421624228425810002k因当H0成立时,K2≥6.635的概率约为0.01,故有99%的把握认为该血清能起到预防感冒的作用。6.为调查学生对国家大事关心与否是否与性别有关,在学生中进行随机抽样调查,结果如下表,根据统计数据作出合适的判断分析.关心不关心合计男生18218200女生17624200合计35842400解:设H0:学生对国家大事关心与否与性别没有关系。9577.02002004235817618241824002k因当H0成立时,K2≥0.9577的概率大于10%,故不能否定假设H0,即不能作出学生是否关心国家大事于性别有关的结论。<2.7067、气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?有效无效合计复方江剪刀草18461245胆黄片919100合计27570345解:设H0:两种中草药的治疗效果没有差异。098.1110024570275916191843452k因当H0成立时,K2≥10.828的概率为0.001,故有99.9%的把握认为,两种药物的疗效有差异。1、能够通过列联表,等高条形图估计两个分类变量之间是否有关系;2、利用判断出两个分类变量之间是否有关系;3、了解独立性检验的思想。2K

1 / 21
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功