第五讲列联表分析导言在数据分析中,我们不仅需要了解单一变量的数值分布特征,还需要了解一个变量与另一个变量之间的关系。例如,我们不仅想了解一个班级中同学们的性别结构,同时还想知道不同性别的同学在某一问题上的态度是否不同。当不同性别的同学在该问题上的态度有明显差异时,我们可以说,性别与态度这两个变量之间存在相关关系。所谓相关,是指一个变量的值与两一个变量的值有连带性,即一个变量的取值发生变化,另一个变量的取值也跟着发生变化。相关关系不一定是因果关系,但是因果关系必定存在相关关系。啤酒与尿布在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。啤酒销量尿布销量消费者的喜好导言为了了解一个变量与另一个变量之间是否存在相关关系以及相关的强度大小,在统计上常用的方法是做列联表或者是计算两个变量之间的相关系数。读者通过列联表可以直观地感受到两个变量之间是否存在相关关系及其关系的强弱和方向,而相关系数则更精确地反映了两个变量之间的相关关系强度的大小和方向。导言赞成不赞成男020女300赞成不赞成男200女030全相关赞成不赞成男1010女1515赞成不赞成男218女255零相关强相关一、列联表(contingencytable)列联表也称交互分类表,就是同时根据两个变量的值,将所研究的观测个案进行分类。一、列联表(contingencytable)1.由两个以上的变量交叉分类的频数分布表2.行变量的类别用r表示,ri表示第i个类别3.列变量的类别用c表示,cj表示第j个类别4.每种组合的观察频数用fij表示5.表中列出了行变量和列变量的所有可能的组合6.一个r行c列的列联表称为r×c列联表一、列联表(contingencytable)最大志愿频数快乐家庭40理想工作60增广见闻10合计100条件频数(conditionalfrequencies)最大志愿教育水平合计高中低快乐家庭530540理想工作0302050增广见闻50510合计106030100边缘频数(marginalfrequencies)总数一、列联表(contingencytable)最大志愿教育水平高(%)中(%)低(%)快乐家庭50.050.016.7理想工作0.050.066.7增广见闻50.00.016.7总数(10)(60)(30)低教育水平的青年多以“理想工作”为志愿,中、高教育水平的青年则多选择“快乐家庭”,但前者同时较注重“理想工作”,后者较注重“增广见闻”。表2.2青年人教育水平对其志愿的影响一、列联表(contingencytable)编制条件百分比表时应该注意:1.顶端有表号和标题。2.舍去不必要线条,尽可能简洁,上下粗线条,左右不封口。3.自变量取值下标明%,条件百分比不必再一一标%。4.表地段()的数值,表示在计算百分比时所依据的个案数目。5.表内各百分比数值的小数位数应该保持一致。6.根据自变量的方向计算百分比,但当因变量在样本中的分布不能代表其在总体中的分布时则要根据因变量的方向计算百分比。一、列联表(contingencytable)一般而言,将因变量放在表的左边,自变量放在表的上边,r×c表,r表示的因变量的取值个数,c表示的是自变量的取值个数。按照根据自变量方向计算百分比,即根据列来计算百分比。一、列联表(contingencytable)是否赞成期中考核班级1班(%)2班(%)3班(%)赞成64.153.839.5不赞成35.946.260.5总数(78)(80)(76)是否赞成期中考核班级总数1班(%)2班(%)3班(%)赞成40.735.024.3(123)不赞成25.233.341.4(111)怎么解释?1班同学赞成期中考核的学生比重最大,3班最小。班级影响考试态度。一、列联表(contingencytable)根据因变量方向计算百分比举例研究某城市破裂家庭(自变量)对青少年犯罪行为(因变量)的影响。如何抽样?假定该城市的全部青少年中,未犯罪的青少年有54400名,有越轨行为的青少年960名。现在我们决定从未犯罪青少年中抽取1%,即544名,但如果按照相同的比例从犯罪的青少年中抽取样本的话,则只能抽取10个人,这样的样本太小,难以进行准确的比较。因此,按照50%的比例从犯罪青少年中抽取480名作为样本。一、列联表(contingencytable)犯罪青少年未犯罪青少年合计破裂家庭14645191和好家庭334499833合计4805441024犯罪青少年未犯罪青少年合计破裂家庭(%)76.423.6(191)和好家庭(%)40.060.0(833)犯罪青少年(%)未犯罪青少年(%)破裂家庭30.48.3和好家庭69.691.7总数(480)(544)和好家庭的中有40%的青少年有犯罪行为?犯罪青少年中破裂家庭占了30.4%的比重,为未犯罪青少年中破裂家庭只占8.3%。一、列联表(contingencytable)列联表的SPSS实现。(略)条件百分比表的优点:资料丰富,一个3×3列联表就有9个百分比可供比较。条件百分比表的缺点:当r×c很大时,百分比会很多,不容易看出两个变量之间的关系。比如一个5×6表就会30个百分比,就很难看出两个变量之间是否存在相关关系。此时,我们就希望有一个数值来表示两个变量之间的相关关系的强度和方向,以使资料更加简化和明白易懂,这就是相关系数。二、相关系数(correlationcoefficient)相关系数即用来表示两个变量间相关强度和方向的统计值。相关系数非常多,当我们选择相关系数时,首先,根据变量的测量层次,不同层次的变量需要选择不同的相关系数。其次,两个变量之间关系是对称的还是不对称的,对称关系即不区分自变量和因变量,而不对称关系则要区分自变量和因变量。再次,尽量选择具有消减误差比例意义的相关系数。二、相关系数(correlationcoefficient)相关系数即用来表示两个变量间相关强度和方向的统计值。相关系数非常多,当我们选择相关系数时,首先,根据变量的测量层次,不同层次的变量需要选择不同的相关系数。其次,两个变量之间关系是对称的还是不对称的,对称关系即不区分自变量和因变量,而不对称关系则要区分自变量和因变量。再次,尽量选择具有消减误差比例意义的相关系数。二、相关系数(correlationcoefficient)消减误差比例(proportionatereductioninerror),简称为PRE测量法。相关分析的目的之一在于用一个变量去预测或解释另一个变量。为什么我们班同学的身高会有那么大的差异?当我们对这一现象毫无所知的时候,随便说出一个同学的名字,让你猜他的身高,这个时候难免会有误差。但是,当我们知道性别与身高有较强的相关关系之后,在说出这个同学名字的同时又告诉你了该同学的性别,那么,这个时候你再去猜他的身高,应该就可以减少若干误差。而且,性别与身高的相关度越高,所能减少的误差也越大。二、相关系数(correlationcoefficient)假设在不知道X(如性别)的条件下去预测Y(如身高)所产生的误差是E1,在知道X的条件下去利用X的取值去预测Y所产生的误差为E2,则消减误差比例PRE=(E1-E2)/E1由以上公式可知,当通过X预测Y产生的误差E2越小,PRE数值越大,标明X与Y的关系越。当E2=0时,X与Y的关系最强,PRE=1,当E2=E1时,关系最弱,PRE=0.当PRE=06时,就表明用X预测Y可以减少60%的误差。二、相关系数(correlationcoefficient)PRE数值的意义就在于它能够直观地表示用一个变量(X)去解释或预测另一个变量(Y)时能够减少百分之几的误差。二、相关系数(correlationcoefficient)1.两个定类变量之间的相关系数:λ和tau-yLambda相关测量法的基本逻辑:以一个定类变量的值来预测另一个定类变量的值时,以众数作为预测的准则,可以消减多少误差,消减的误差越多,变量之间的相关愈强,反之,越少则相关愈弱。二、相关系数(correlationcoefficient)1.两个定类变量之间的相关系数:λ和tau-yLambda相关测量法有2种形式:一是对称形式,简写为λ系数,即两个变量之间是相关影响的,区分不出明显的自变量和因变量。二是不对称形式,简写为λy系数,要求两个定类变量中,一个是自变量,另一个是因变量,自变量影响因变量。二、相关系数(correlationcoefficient)1.两个定类变量之间的相关系数:λ和tau-y()2()xyXyxymmMMnMMMx:X变量的众数My:Y变量的众数mx:X变量各类别下Y变量的众数my:Y变量各类别下X变量的众数N:全部个案数xyyymMnM二、相关系数(correlationcoefficient)1.两个定类变量之间的相关系数:λ和tau-y最大志愿性别合计男女快乐家庭103040理想工作401050增广见闻10010合计6040100(4030)50200.401005050xyyymMnM二、相关系数(correlationcoefficient)1.两个定类变量之间的相关系数:λ和tau-yλy具有消减误差比例的意义,性别与志愿之间的相关系数为0.4,表明用性别与预测志愿可以减少40%的误差。121()()yxxyyyynMnmmMEEEnMnM二、相关系数(correlationcoefficient)1.两个定类变量之间的相关系数:λ和tau-y最大志愿知心朋友的志愿合计快乐家庭理想工作增广见闻快乐家庭289340理想工作241750增广见闻24410合计325414100()(28414)(28417)(5450)7376104450.472()2100(5450)20010496xxyyxymmMMnMM二、相关系数(correlationcoefficient)1.两个定类变量之间的相关系数:tau-y相关测量属于不对称测量,要求两个定类变量中,一个是自变量(X),一个是因变量(Y),其值也是介于0-1之间,具有消减误差比例的意义。计算公式如下:1()yynFFEn2()xXFffEF121tau-yEEEn:个案数目f:条件次数Fy:Y变量的边缘次数Fx:X变量的边缘次数二、相关系数(correlationcoefficient)140(10040)50(10050)10(10010)58100E最大志愿性别合计男女快乐家庭103040理想工作401050增广见闻10010合计6040100210(6010)40(6040)10(6010)30(4030)10(4010)0(400)456040E58450.22458tauy性别与志愿之间的相关系数为0.224,也可以说用性别来预测志愿可以减少22.4%的误差。二、相关系数(correlationcoefficient)Tau-y系数在计算相关程度时运用了所有的边缘次数和条件次数。因此,其敏感度要高于Lambda系数。如果是不对称关系的两个定类变量,最好选择tau-y系数。二、相关系数(correlationcoefficient)2.两个定序变量之间的相关:Gamma系数适用于分析对称关系dy适用于分析不对称关系Tau系列系数斯皮尔曼相关系数二、相关系数(correlationcoefficient)2.两个定序变量之间的相关:Gamma系数dyNs:同序对数Nd:异序对数sdsdNN