1.2独立性检验的基本思想及其初步应用,.,.,,,,,.对于性别变量其取值为男和女两种这种变量的不同值表示个体所属的不同类别像这样的变量称为在现实生活中分类变量是大量存在的例如是否吸烟宗教信仰国籍等等分类变量,.,??.在日常生活中我们常常关心两个分类变量之间是否有关系例如吸烟是否与患肺癌有关系性别是否对于喜欢数学课程有影响等等:):(,9659,人单位结果得到如下人了肿瘤研究所随机地调查某癌有影响为调查吸烟是否对患肺探究996591987421484920997817427775总计吸烟不吸烟总计患肺癌不患肺癌吸烟与患肺癌列联表表71?有影响那么吸烟是否对患肺癌.:,.%28.2,;%54.0,:.,71在差异肺癌可能存烟者患吸烟者和不吸结论直观上可以得出因此患有肺癌有在吸烟者中患有肺癌有吸烟者中在不估计出表可以粗略癌情况的列联由吸烟情况和患肺称为频数表的样列出的两个分类变量这像表列联表与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用展示列联表数据的频等高条形图率特征。32.1图0.000.100.200.300.400.500.600.700.800.901.00不吸烟吸烟1.23,,;.如图所示在等高条形图中绿色的条高表示不患肺癌的频率黑色的条高表示患肺癌的频率,.?上面我们通过分析数据和图形得到的直观印象是吸烟和患肺癌有关那么这种判断是否可靠呢我们可以通过统计分析回答这个问题。0为了回答上述问题,我们先假设H:吸烟与患肺癌没有关系.:,71母表示的列联表得到如下用字中的数字用字母代替把表dcbadbcadcdcbaba总计吸烟不吸烟总计患肺癌不患肺癌吸烟与患肺癌列联表表81如果“吸烟与患肺癌没有关系”,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即22,,1.nadbcKabcdacbdnabcd为了使不同样本容量的数据有统一的评判标准基于上面的分析我们构造一个随机变量其中为样本容量,632.569198742148781720994249777599651,71,.,,2220kKKH的观测值为算得计利用公式中的数据根据表现在很小应该则吸烟与肺癌没有关系即成立若?这个值是不是很大呢2.01.0635.6KP,H20率统计学家估算出如下概成立的情况下在206.6350.01,HK即在成立的情况下的值大于的概率非常小,近似于是一个小概率事件。200K56.632,6.635,0.01099%,99%.HH现在观测值k远远大于所以我们有理由断定不成立,即认为吸烟与肺癌有关系。但这种判断会犯错误,犯错误的概率不会超过,即:我们有的把握认为不成立即有的把握认为吸烟与肺癌有关系2.K上面这种利用随机变量来判断两个分类变量有关系的方法称为两个分类变量的.独立性检验1212,,,,,(22):XYxxyy一般地假设两个分类变量和它们的值域分别为和其样本频数列联表称为列联表为dcbadbcadcdcxbabaxyy2121总计总计91表列联表222:,,1-11.KkXYXY独立性检验的具体做法是根据观测数据计算随机变量的值其值越大说明与有关系成立的可能性越大;然后查阅临界值表来确定结论与有关系犯错误的概率706.2072.2323.1708.0455.0k10.015.025.040.050.0kKP2828.10879.7635.6024.5841.3001.0005.0010.0025.005.0111表;YX%9.99,828.10k1:关系有与把握认为就有如果例如;YX%5.99,879.7k2系有关与把握认为就有如果;YX%99,635.6k3有关系与把握认为就有如果;YX%5.97,024.5k4系有关与把握认为就有如果;YX%95,841.3k5有关系与把握认为就有如果;YX%90,706.2k6有关系与把握认为就有如果2.706,.kXY如果就认为没有充分的证据显示与有关系1,665,214,772175.??例在某医院因为心脏病而住院的名男性病人中有人秃顶而另外名不是因为患心脏病而住院的男性病人中有人秃顶分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系你所得的结论在什么范围内有效如下列联表根据题目所给数据得到解秃顶与患心脏病列联表表11114377726651048597451389175214总计不秃顶秃顶总计患其他病患心脏病.应条图见课图(略)相的等高形本P141.2-22111,143721459717545116.3736.635.3891048665772k根据列联表中的数据得到0.010.所以在犯错误的概率不超过的前提下,认为秃顶与患心脏病有关系,.因为这组数据来自所调查的医院的住院的病人因此所得到的结论适合该医院住院的病人群体:,300,2得到如下列联表名学生抽出中随机在某城市的某校高中生之间的关系是否喜欢数学课程为考察高中生的性别与例30022872178143351228537总计女男总计不喜欢数学课程喜欢数学课程联表性别与喜欢数学课程列表1214.514.??k由表中数据计算得高中生的性别与是否喜欢数学课程之间是否有关系为什么23.8410.05,4.514,,,5%,95%.PK解:而由样本数据计算得k根据独立性检验的基本原理我们断定性别与喜欢数学课之间有关系成立并且这种判断犯错误的概率约为,所以约有的把握认为性别与喜欢数学课之间有关系男女总计爱好402060不爱好203050总计6050110高考链接(2011湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:706.2072.2323.1708.0455.0k10.015.025.040.050.0kKP2828.10879.7635.6024.5841.3001.0005.0010.0025.005.0附表:2110(40302020)7.860506050k计算得22()()()()()nadbcKabcdacbd由参照附表,得到的正确结论是()答案:CA在犯错误的概率不超过0.1%的前提下,认为“爱好该运动与性别有关”B在犯错误的概率不超过0.1%的前提下,认为“爱好该运动与性别无关”C有99%以上的把握认为“爱好该项运动与性别有关”D有99%以上的把握认为“爱好该项运动与性别无关”