1.2独立性检验的基本思想及其初步应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

正定一中刘艳静.,,,,,.,.,等等国籍宗教信仰否吸烟是例如分类变量是大量存在的生活中在现实像这类变量称为别类表示个体所属的不同值种变量的不同这其取值为男和女两种对于性别变量分类变量.??,.,等等影响有程数学课别对于是否喜欢性有关系吸烟与肺癌是否例如量之间是否有关系变我们常常关心两个分类在日常生活中:):(,9659,人单位结果得到如下人了肿瘤研究所随机地调查某癌有影响为调查吸烟是否对患肺探究996591987421484920997817427775总计吸烟不吸烟总计患肺癌不患肺癌吸烟与患肺癌列联表表71?有影响那么吸烟是否对患肺癌.:,.%28.2,;%54.0,:.,71在差异肺癌可能存烟者患吸烟者和不吸结论直观上可以得出因此患有肺癌有在吸烟者中患有肺癌有吸烟者中在不估计出表可以粗略癌情况的列联由吸烟情况和患肺称为频数表的样列出的两个分类变量这像表列联表.,况状反映出相关数据的总体能更直观地图三维柱形图和二维条形与表格相比12.1图0.000.100.200.300.400.500.600.700.800.901.00不吸烟吸烟.;,,12.1.,的百分比黑色的条高表示患肺癌的百分比癌绿色的条高表示不患肺在等高条形图中所示如图下患肺癌的比例高条形图表示两种情况我们还可用如下的等特征为了更清晰地表达这个??.,呢烟与患肺癌有关吸的把握认为或者说我们能够以多大此呢那么事实是否真的如象是吸烟和患肺癌有关得到的直观印和图形上面我们通过分析数据.:H,0吸烟与患肺癌没有关系我们先假设为了回答上述问题.BPAPABPH,,B,A0等价于即吸烟与患肺癌独立等价于癌没有关系肺吸烟与患则表示不患肺癌表示不吸烟用:,71母表示的列联表得到如下用字中的数字用字母代替把表dcbadbcadcdcbaba总计吸烟不吸烟总计患肺癌不患肺癌吸烟与患肺癌列联表表81成立的条件下应有所以在于频率近似于概率由发生的频数和恰恰好分别为事件和发生的频数恰好为事件中在表0,.:,81HBAcabaABa,cabaadcba,dcban,ncanbana即量为样本容其中.bcad即.,|bcad;|,|bcad,|关系越强说明吸烟与患肺癌之间越大系越弱关说明吸烟与患肺癌之间越小因此.dcban1dbcadcbabcadnK,,22为样本容量其中我们构造一个随机变量基于上面的分析准数据有统一的评判标为了使不同样本容量的,632.569198742148781720994249777599651,71,.,,2220kKKH的观测值为算得计利用公式中的数据根据表现在很小应该则吸烟与肺癌没有关系即成立若?这个值是不是很大呢2.01.0635.6KP,H20率统计学家估算出如下概成立的情况下在成立的情况在也就是说近似于非常小的概率的值大于成立的情况下即在020H..01.0.635.6KH.1001635.6,K2的频率约为观测值超过进行多次观测下对随机变量.5d,c,b,a,.,n,2都不小于要求通常在实际应用中近似程度越高越大中在?,H,635.6K02断出错的可能性有多大这种判不成立就断定如果思考.%99,H%99.01.02,H,635.6632.56k00吸烟与肺癌有关系的把握认为即有不成立的把握认为因此我们有概率不超过观测值的式可知能够出现这样的由的条件下成立在远远大于现在观测值.K2个分类变量的的方法称为两两个分类变量有关系可以认为来确定在多大程度上上面这种利用随机变量.独立性检验%.99%,99,635.6k,2,K.,K.K,,,.222程度约为这一结论成立的可信两个分类变量有关系即理的程度为合不设假明说际计算出的由实程度式评价该假设不合理的可以通过概率的含义根据随机变量理定程度上说明假设不合则在一的观察值很大的果由观测数据计算得到如应该很小变量在该假设下构造的随机成立系两个分类变量没有关即假设结论设该结论不成立首先假度这一结论成立的可信程分类变量有关系两个要确认类似于反证法独立性检验的基本思想反证法原理与独立性检验原理反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。独立性检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。?,量是否相关吗形图中看出两个分类变你能从列联表的三维柱利用上面的结论思考:)22(,y,yx,x,YX,2121为列联表称为其样本频数列联表和别为它们的值域分和假设两个分类变量一般地dcbadbcadcdcxbabaxyy2121总计总计91表列联表22:H,YX:H11成立的可能性骤判断结论可以按如下步有关系与若要推断的论述为.,,.1所得结论的可靠程度地给出但是这种判断无法精确个分类变量是否有关可以粗略地判断两条形图通过三维柱形图和二维.H,bcad,11成立的可能性越大相差越大形高度的乘积与副对角线上的两个柱度的乘积主对角线上两个柱形高在三维柱形图中.H,.dccyYxX,baayYxX,211211成立的可能性就越大两个比例的值相差越大的个体所占的比例的个体中具有足条件也可以估计满的个体所占的比例中具有的个体可以估计满足条件在二维条形图中.)101(,5,,,.,,1:.,.22的可信程度有关系与来确定结论表可以通过查阅下表时小于都不当得到的观测数据成立的可能性越大有关系与说明其值越大的值验随机变量式给出的检观测数据计算则根据具体做法是种判断的可靠程度并且能较精确地给出这有关系考察两个分类变量是否可以利用独立性检验来YXdcbaYXkK.,5d,c,b,a确的检验方法需采用很复杂的精时中有小于当观测数据706.2072.2323.1708.0455.0k10.015.025.040.050.0kKP2828.10879.7635.6024.5841.3001.0005.0010.0025.005.0101表0.50.40.250.150.10.050.0250.010.0050.001xo0.4550.7081.3232.0722.7063.8415.0246.6357.87910.82820()Px卡方临界值表:则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;(1)若观测值χ2>10.828.(3)若观测值χ2>2.706,则(4)若观测值χ2<2.706,则(2)若观测值χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;则有90%的把握认为“Ⅰ与Ⅱ有关系”;则没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即Ⅰ与Ⅱ没有关系。;YX%9.99,828.10k1:关系有与把握认为就有如果例如;YX%5.99,879.7k2系有关与把握认为就有如果;YX%99,635.6k3有关系与把握认为就有如果;YX%5.97,024.5k4系有关与把握认为就有如果;YX%95,841.3k5有关系与把握认为就有如果;YX%90,706.2k6有关系与把握认为就有如果.YX,706.2k有关系与显示就认为没有充分的证据如果??.175772,214,665,1围内有效你所得的结论在什么范有关系脏病是否验方法判断秃顶与患心图形和独立性检分别利用人秃顶人中有脏病而住院的男性病名不是因为患心而另外人秃顶有病人中名男性院的病而住因为心脏在某医院例如下列联表根据题目所给数据得到解秃顶与患心脏病列联表表11114377726651048597451389175214总计不秃顶秃顶总计患其他病患心脏病相应的等高条形图如图所示,从图中可以看出秃顶样本中患心脏病的频率明星高于不秃顶样本中换心脏病的频率,因此可以认为“秃顶与患心脏病有关”.0%10%20%30%40%50%60%70%80%90%100%秃顶不秃顶不患心脏病患心脏病根据列联表中的数据,得到:221437(214597175451)16.3736.635.3891048665772K所以有99%的把握认为“秃顶患心脏病有关”.1.利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,aa+b与cc+d相差越大,两个分类变量有关系的可能性就越大.在作等高条形图时可以用列联表来寻找相关数据,作图要精确,且易于观察,以便对结论的判断不出现偏差.2.解决一般的独立性检验问题的步骤:(1)通过列联表确定a,b,c,d,n的值;根据实际问题需要的可信程度确定临界值k0;(2)利用K2=nad-bc2a+bc+da+cb+d求出K2的观测值k;(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功