思想及其初步应用独立性检验的基本2.1.,,,,,.,.,等等国籍宗教信仰否吸烟是例如分类变量是大量存在的生活中在现实像这类变量称为别类表示个体所属的不同值种变量的不同这其取值为男和女两种对于性别变量分类变量.??,.,等等影响有程数学课别对于是否喜欢性有关系吸烟与肺癌是否例如量之间是否有关系变我们常常关心两个分类在日常生活中:):(,9659,人单位结果得到如下人了肿瘤研究所随机地调查某癌有影响为调查吸烟是否对患肺探究996591987421484920997817427775总计吸烟不吸烟总计患肺癌不患肺癌吸烟与患肺癌列联表表71?有影响那么吸烟是否对患肺癌.:,.%28.2,;%54.0,:.,71在差异肺癌可能存烟者患吸烟者和不吸结论直观上可以得出因此患有肺癌有在吸烟者中患有肺癌有吸烟者中在不估计出表可以粗略癌情况的列联由吸烟情况和患肺称为频数表的样列出的两个分类变量这像表列联表.,况状反映出相关数据的总体能更直观地图三维柱形图和二维条形与表格相比.,12.1大小地看出各个频数的相对从中能清晰是列联表的三维柱形图图.,个柱体都能看到以使每择恰当的视角作三维柱形图要注意选010002000300040005000600070008000不患肺癌患肺癌吸烟不吸烟12.1图0100020003000400050006000700080009000不吸烟吸烟不患肺癌患肺癌22.1图.,.,,22.1肺癌的比例比例高于不吸烟者中患吸烟者中患肺癌的从图中可以看出癌的人数黑色条高表示患肺数条高表示不患肺癌的人其中绿色图是叠在一起的二维条形图32.1图0.000.100.200.300.400.500.600.700.800.901.00不吸烟吸烟.;,,32.1.,的百分比黑色的条高表示患肺癌的百分比癌绿色的条高表示不患肺在等高条形图中所示如图下患肺癌的比例高条形图表示两种情况我们还可用如下的等特征为了更清晰地表达这个??.,呢烟与患肺癌有关吸的把握认为或者说我们能够以多大此呢那么事实是否真的如象是吸烟和患肺癌有关得到的直观印和图形上面我们通过分析数据.:H,0吸烟与患肺癌没有关系我们先假设为了回答上述问题.BPAPABPH,,B,A0等价于即吸烟与患肺癌独立等价于癌没有关系肺吸烟与患则表示不患肺癌表示不吸烟用:,71母表示的列联表得到如下用字中的数字用字母代替把表dcbadbcadcdcbaba总计吸烟不吸烟总计患肺癌不患肺癌吸烟与患肺癌列联表表81成立的条件下应有所以在于频率近似于概率由发生的频数和恰恰好分别为事件和发生的频数恰好为事件中在表0,.:,81HBAcabaABa,cabaadcba,dcban,ncanbana即量为样本容其中.bcad即.,|bcad;|,|bcad,|关系越强说明吸烟与患肺癌之间越大系越弱关说明吸烟与患肺癌之间越小因此.dcban1dbcadcbabcadnK,,22为样本容量其中我们构造一个随机变量基于上面的分析准数据有统一的评判标为了使不同样本容量的,632.569198742148781720994249777599651,71,.,,2220kKKH的观测值为算得计利用公式中的数据根据表现在很小应该则吸烟与肺癌没有关系即成立若?这个值是不是很大呢2.01.0635.6KP,H20率统计学家估算出如下概成立的情况下在成立的情况在也就是说近似于非常小的概率的值大于成立的情况下即在020H..01.0.635.6KH.1001635.6,K2的频率约为观测值超过进行多次观测下对随机变量.5d,c,b,a,.,n,2都不小于要求通常在实际应用中近似程度越高越大中在?,H,635.6K02断出错的可能性有多大这种判不成立就断定如果思考.%99,H%99.01.02,H,635.6632.56k00吸烟与肺癌有关系的把握认为即有不成立的把握认为因此我们有概率不超过观测值的式可知能够出现这样的由的条件下成立在远远大于现在观测值.K2个分类变量的的方法称为两两个分类变量有关系可以认为来确定在多大程度上上面这种利用随机变量.独立性检验%.99%,99,635.6k,2,K.,K.K,,,.222程度约为这一结论成立的可信两个分类变量有关系即理的程度为合不设假明说际计算出的由实程度式评价该假设不合理的可以通过概率的含义根据随机变量理定程度上说明假设不合则在一的观察值很大的果由观测数据计算得到如应该很小变量在该假设下构造的随机成立系两个分类变量没有关即假设结论设该结论不成立首先假度这一结论成立的可信程分类变量有关系两个要确认类似于反证法独立性检验的基本思想?,量是否相关吗形图中看出两个分类变你能从列联表的三维柱利用上面的结论思考:)22(,y,yx,x,YX,2121为列联表称为其样本频数列联表和别为它们的值域分和假设两个分类变量一般地dcbadbcadcdcxbabaxyy2121总计总计91表列联表22:H,YX:H11成立的可能性骤判断结论可以按如下步有关系与若要推断的论述为.,,.1所得结论的可靠程度地给出但是这种判断无法精确个分类变量是否有关可以粗略地判断两条形图通过三维柱形图和二维.H,bcad,11成立的可能性越大相差越大形高度的乘积与副对角线上的两个柱度的乘积主对角线上两个柱形高在三维柱形图中.H,.dccyYxX,baayYxX,211211成立的可能性就越大两个比例的值相差越大的个体所占的比例的个体中具有足条件也可以估计满的个体所占的比例中具有的个体可以估计满足条件在二维条形图中.)101(,5,,,.,,1:.,.22的可信程度有关系与来确定结论表可以通过查阅下表时小于都不当得到的观测数据成立的可能性越大有关系与说明其值越大的值验随机变量式给出的检观测数据计算则根据具体做法是种判断的可靠程度并且能较精确地给出这有关系考察两个分类变量是否可以利用独立性检验来YXdcbaYXkK.,5d,c,b,a确的检验方法需采用很复杂的精时中有小于当观测数据706.2072.2323.1708.0455.0k10.015.025.040.050.0kKP2828.10879.7635.6024.5841.3001.0005.0010.0025.005.0101表;YX%9.99,828.10k1:关系有与把握认为就有如果例如;YX%5.99,879.7k2系有关与把握认为就有如果;YX%99,635.6k3有关系与把握认为就有如果;YX%5.97,024.5k4系有关与把握认为就有如果;YX%95,841.3k5有关系与把握认为就有如果;YX%90,706.2k6有关系与把握认为就有如果.YX,706.2k有关系与显示就认为没有充分的证据如果如下列联表根据题目所给数据得到解秃顶与患心脏病列联表表11114377726651048597451389175214总计不秃顶秃顶总计患其他病患心脏病??.175772,214,665,1围内有效你所得的结论在什么范有关系脏病是否验方法判断秃顶与患心图形和独立性检分别利用人秃顶人中有脏病而住院的男性病名不是因为患心而另外人秃顶有病人中名男性院的病而住因为心脏在某医院42.1图0100200300400500600患心脏病患其他病秃顶不秃顶.,,.42.1秃顶与患心脏病有关为某种程度上认以在可的乘积要大一些高度体线上两个柱底面副对角较来说比所示如图维柱形图相应的三.635.6373.1677266510483894511755972141437,11122K得到中的数据根据列联表.%99秃顶与患心脏病有关的把握认为所以有.,住院的病人群体因此所得到的结论适合的病人因为这组数据来自住院30022872178143351228537总计女男总计不喜欢数学课程喜欢数学课程联表性别与喜欢数学课程列表121??.513.4K2为什么否有关系否喜欢数学课程之间是高中生的性别与是由表中数据计算得:,300,2得到如下列联表名学生抽出中随机在某城市的某校高中生之间的关系是否喜欢数学课程为考察高中生的性别与:,.%95具体过程如下验的基本思想据是独立性检作出这种判断的依课之间有关系性别与喜欢数学以上把握认为可以有约解.dcbabdacdccbaa,dccbaa,.d,c,b,a应很大即相差很多应该数学课的人数比例与女生中喜欢例的比课学数欢中喜生则男系有关课学数欢如果性别与是否喜生人数数、不喜欢数学课的女数学课的女生人数、喜欢不喜欢数学课的男生人的男生人数、表示样本中喜欢数学课分别用,dbcadcbadcba乘以常数因子将上式等号右边的式子,dbcadcbabdacnK22然后平方得.,K.dcban2成立的可能性越大欢数学课之间有关系性别与喜越大因此其中.%95,%.5,,.A,513.4K.A,05.0841.3KP841.3KA,,222喜欢数学课之间有关系性别与的把握认为约有所以可能性约为并且这种判断出错的成立欢数学课之间有关系性别与喜我们应该断定据假设检验的基本原理根发生这表明小概率事件据计算得而由样本数是一个小概率事件因此事件的概率为由于事件没有关系性别与喜欢数学课之间假设另一方面