第10章属性数据的统计分析10.1列联表的独立性分析10.1.1实例列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与定性变量相联系。通过对列联表的分析,可以了解这些变量之间的依赖关系。例10.1在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,结果如表10-1所示。表10-1商场调查数据年龄段(岁)商场1商场2商场3总和≤3031~50>51总和8091412127086381944515107019519289476那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。可以看到,表中只有两个变量,这样的列联表称为二维列联表。例10.2下表给出了一个假设的某大学毕业生的专业M(文科、理工科),性别G及毕业后工作的收入I(高、低)为变量的三维列联表,结果如表10-2所示。表10-2大学毕业生调查牙刷专业(M)性别(G)收入(I)低高文科理工科男女男女12018080208012032080则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联表称为三维列联表。10.1.2定性变量与列联表对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称为该定性变量的水平。我们用CBA,,表示定性变量,用kjiCBA,,表示相应的水平。假设有n个随机实验的结果按照两个变量A和B分类,A取值为rAAA,,21,B取值为sBBB,,21,将变量A和B的各种情况的组合用一张sr列联表表示,称sr列联表,如表8-3所示。其中ijn表示A取iA及B取jB的频数。risjijnn11,其中:表示各行之和,,2,1,1.rinnsjijiriisjjriijjnnnsjnn1.1.1...,,,2,1,表示各列之和表10-3变量频数表BA1B2B…sB总和rAA1111rnn212rnnrssnn1..1rnn总和1.n2.n…sn...n类似的当涉及三个定性变量时,观测的频数可用三维列联表给出,若还用上面的表示方式,则需要一个三维立体表,但这样通常用起来不方便,所以一般是采用象例10.2的方式把三维列联表给出。10.1.3二维sr列联表的独立性检验二维sr列联表的两个变量A和B可视为离散型随机变量,取值分别rAAA,,21和sBBB,,21,以ijp表示A取iA及B取jB的概率,通常称为格子概率,以jipp..,分别表示A和B的边缘概率。则对于二维sr列联表,变量A和B的联合及边缘分布列如表10-4所示。表10-4变量联合及边缘分布列BA1B2B…sB总和rAA1111rpp212rpprsspp1..1rpp总和1.p2.p…sp.1其中.,,2,1,;,,2,1,1.1.sjpprippriijjsjiji这时检验变量A和B是否独立等价于检验假设不成立。上式中至少对某组成立,及对一切jiHsjrpppHjiij,:1i1:1..0如果0H为真,则在n次观测中事件},{jiBBAA发生的理论频数为.,2,1;,,2,1,..sjripnpnpjiij当n较大时,理论频数jipnp..与表10-3中相应的观测频数ijn的差异对ri,2,1,sj,2,1均不应很大,为此,我们用risjjijiijpnppnpnQ11..2..2)((10.1)来描述理论频数与相应的观测频数的总差异量。当0H为真时,2Q的值应较小,所以,当2Q的值显著偏大时,就拒绝0H,也就是认为A和B不独立。但是在实际中,由于jipp..,均未知,则我们采用相应的观测概率nnpnnpjjii....ˆ,ˆ分别作为概率jipp..和的估计(sjri,,2,1;,,2,1)。这样,将概率jipp..和的估计代入(10.1),则可以得到2Pearson统计量:risjjijiijnnnnnnQ11..2..2)((10.2)理论上可以证明,当0H为真时,2Q渐近服从自由度为2)1)(1(的sr分布,一般的要求5..nnnji,即每个单元格的频数不少于5。如果2Pearson值过大,或p值很小,则拒绝原假设,认为行变量和列变量存在关联。这种关联并没有指出两变量之间的相关或其他特殊的关系,所以称为一般关联。例10.3(续例10.1)根据例题10.1所给的数据以及所表示的列联表,为了探讨两个变量之间的关系,不妨给出原假设:这两个变量是相互独立的。我们只要将表格中相应的频数代入到式子(10.2),则就可以得到相应的2Q值,利用2Q渐近服从自由度为2)1)(1(的sr分布,就可以根据2分布表查出是否在水平下拒绝原假设,我们看看如何利用SAS语言来解决这样的问题。为了得到不同年龄段的顾客与他们先去哪一个商场这样两个变量之间的关系,则我们可以利用SAS语言中关于列联表检验的语言PROCFREQ来求出2Pearson值,则如下所示:dataclient;doi=1to3;doj=1to3;inputf@@;output;end;end;cards;807045918615413810;run;procfreq;weightf;tablesi*j/chisq;run;其中用i=1,2,3分别表示顾客的年龄段为≤30,31--50,>51;用j=1,2,3分别表示顾客首先去的商场为商场1,商场2,商场3。则运行程序可以得到下面的结果:TABLEOFIBYJIJFrequency‚Percent‚RowPct‚ColPct‚1‚2‚3‚Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ1‚80‚70‚45‚195‚16.81‚14.71‚9.45‚40.97‚41.03‚35.90‚23.08‚‚37.74‚36.08‚64.29‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ2‚91‚86‚15‚192‚19.12‚18.07‚3.15‚40.34‚47.40‚44.79‚7.81‚‚42.92‚44.33‚21.43‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ3‚41‚38‚10‚89‚8.61‚7.98‚2.10‚18.70‚46.07‚42.70‚11.24‚‚19.34‚19.59‚14.29‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal2121947047644.5440.7614.71100.00STATISTICSFORTABLEOFIBYJStatisticDFValueProbƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒChi-Square419.1420.001LikelihoodRatioChi-Square419.1420.001Mantel-HaenszelChi-Square15.8080.016PhiCoefficient0.201ContingencyCoefficient0.197Cramer'sV0.142SampleSize=476上面的结果分为两个部分,第一部分左上角分别是指:频数(Frequency),百分比(Percent),行百分比(RowPct)和列百分比(ColPct)。第二部分给出了2Pearson检验的结果:我们可以看到2Pearson的值为19.1425,自由度为4,p值为0.0007小于0.05,所以可以拒绝不同年龄段的顾客与他们先去哪个商场相互独立的原假设,即认为它们是相关的。下面我们再看一个例题来加深一下印象。例10.4为研究血型与肝病之间的关系,对295名肝病患者及638名非肝病患者(对照组)调查不同血型的得病情况,如表10-5所示,问肝病与血型之间是否存在关联?表10-5血型与肝病调查数据表血型肝炎肝硬化对照合计OABAB98671318384181228926257304253707860合计19699638933本例中行和列都是分类变量,不妨给出原假设肝病与血型之间是相互独立的,即它们之间不存在关联,则可以利用列联表的独立性检验来判断原假设是否正确,为了得到2Pearson值,可如下得到:datablood;doi=1to4;doj=1to3;inputf@@;output;end;end;cards;9838289674126213857181230;run;procfreq;weightf;tablesi*j/chisq;run;则可以得到结果:TABLEOFIBYJIJFrequency‚Percent‚RowPct‚ColPct‚1‚2‚3‚Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ1‚98‚38‚289‚425‚10.50‚4.07‚30.98‚45.55‚23.06‚8.94‚68.00‚‚50.00‚38.38‚45.30‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ2‚67‚41‚262‚370‚7.18‚4.39‚28.08‚39.66‚18.11‚11.08‚70.81‚‚34.18‚41.41‚41.07‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ3‚13‚8‚57‚78‚1.39‚0.86‚6.11‚8.36‚16.67‚10.26‚73.08‚‚6.63‚8.08‚8.93‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ4‚18‚12‚30‚60‚1.93‚1.29‚3.22‚6.43‚30.00‚20.00‚50.00‚‚9.18‚12.12‚4.70‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal1969963893321.0110.6168.38100.00STATISTICSFORTABLEOFIBYJStatisticDFValueProbƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒChi-Square615.0730.020LikelihoodRatioChi-Square614.2230.027Mantel-HaenszelChi-Square10.5190.471PhiCoefficient0.127ContingencyCoefficient0.126Cramer'sV0.090SampleSize=933运行程序可以得到2Pearson检验结果,自由度为6,2Pearson值为15.0734,p值为0.0197,由于p值小于0.05,可以拒绝血型与病种独立的假设,所以认为血型与肝炎有一定的关联。10.1.4三维tsr列联表的独立性检验当列联表是三维时,便涉及到CBA,,三个变量,它们之间的关系要比二维情形复杂的多。如果根据不同的变量的水平(取值)将它们之间的关系列表,则将得到一个三维立体,为了应用描述的方便,通常我们固定一个变量的取值,然后根据这个变量的取值画出其他两个变量所构成的二维列联表,若将这样若干个(由固定变量的水平决定)二维列联表画在一起,则就可以得到如例10.2所示。对于一个三维列联表中的变量CBA,,,最重要的独立性是(1)CBA,,相互独立;(2)其中的两个变量联合独立于第三个变量;(3)给定一个变量时,另两个变量是条件独立的。从中我们不难看出:(1)中的独立性最强,(2)次之,(3)最弱,并且对与不同的独立性,我们也可以推导出相应的格子概率满足的条件,为此,我们给出下表10-6。表10-6三变量之间关系表格独立性记号格