1统计计算分类数据的列联表分析信计1002班王秋燕2010203102162分类数据的列联表分析第一部分:统计学中根据变量取值类型的不同,把变量分为两大类:离散型变量和连续型变量。离散型变量又称为定量变量,可分为区间变量和比率变量。称变量为名义变量,如果变量的可能取值是没有次序之分的几个水平或状态。称变量为有序变量,如果变量的可能去只是有次序之分的几个水平或状态。称变量为连续型变量,如果变量的可能取值是某个连续区间。对离散型变量进行抽样取得的数据称为分类数据,也称为属性数据。统计运用于我们日常生活的方方面面,尤其是在社会科学中,常常采用列联表来记录我们所获得资料,列联表的资料看起来只是一个一个的资料,但这些由两个或两个以上的类别交叉组合得出的格子,行变量的类别用r表示,ir表示第i个类别,列变量的类别用c表示,jc表示第j个类别,每种组合的观察频次用ijf表示,表中列出了行变量和列变量的所有可能的组合,所以称为列联表,一个r行c列的列联表称为rc列联表。通过运用统计检验方法,能够帮助我们更清晰地分析社会现象。列联表独立性检验是卡方拟合优度检验的一个特例,人们将两个或多个特征分类数据即交叉分类数据以表格形式列出即列联表,从而利用这些数据用来研究两种或多种分类之间是否有某种联系。第二部分:我们用统计理论来解决这个问题。方法一:我们采用独立性的2检验。2检验(Chi-squaretest)是现代统计学的创始人之一,K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率(或者构成比)之间的比较,计数资料的关联度分析,拟合优度检验等。①2检验用途:比较称名变量的次数,具体来讲,就是比较实际次数与期望次数(或理论次数)之间是否有相助差异,或研究检验观察值与理论值之间的紧密程度。2拟合检验就是用来确定事件出现的频数分布与某一理论分布之间的差别是否是随3机性的。②2分布基本思想:第一,属连续型分布,第二,可加性是其基本性质,第三,唯一参数,即自由度。(1)自由度为1的2分布,若~(0,1)ZN,则2Z的分布称为自由度为1的2(Chi-squaredistribution),记为2(1)或2(1)。(2)12,......vZZZ互相独立,均服从N(0,1),则22212......vZZZ的分布称自由度为V的2分布,记为2()v或2()v,或简记为2。自由度V很大时,2()v近似地服从正态分布。有2()2vVZV,2()v服从均数为v,方差为2v的正态分布。图一③2检验(chi-squaredistribution)基本公式:上述基本公式由K.Pearson提出,因此许多统计软件上常称这种检验为Pearson’sChi-squaretest,其他卡方检验都是在此基础上发展起来的\。④2检验主要有三个:适应性检验,正态性检验以及独立性检验。(1)适合性检验为单样本卡方检验,它只是记一个变量,但数据要分成若干相互排斥的组和范畴。其目的是检验时间次数与期望次数是否吻合。统计量:,实质是:适合性检验是用样本提供的信息去推断总体分布是否适合某种已知的规律。(2)正态性检验,用卡方检验进行正态性检验其实也是一种适合性检验,即检验实际次数分布与期望次数分布是否有显著性差异。(3)独立性检验就是检验两个特征或两个分类标准是互相独立的还是互有联系的。用于独立性检验的数据一般整理成“列联表”的形式,即一个分类标准把kiiiinpnpn122)(21.ki2(实测频数理论频数)理论频数0.00.10.20.30.40.50369121518卡方值纵高自由度=1自由度=2自由度=3自由度=62/)12/(2222)2/(21)(ef22(),(1)(1)ATRCT4数据分为若干列,另一个分类标准把数据分为若干行,行列交叉形成一个个的方格。每一行和每一列都有一个总计,书写在一行或一列的末尾,称为“边际总和”。所有边际和加起来就是全部数据的个数或样本容量(N)。独立性检验的分析步骤:第一步:建立假设与备择假设:0H:ijp=ijpp(行变量与列变量独立);1H:ijp=ijpp(行变量与列变量不独立)。第二步:确定适当的检验统计量为chi-square;第三步:规定显著性水平,查表得出拒绝域和临界值;第四步:运用R第五步:作出判断将检验统计量的值与水平的临界值进行比较,得出接受或拒绝原假设的结论:若样本统计量的值落入拒绝域,则拒绝原假设,接受备择假设1H;否则,接受0H。2统计量用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。当n很大,每格ije都不太小时,服从自由度(1)(1)krc的2分布,计算公式为:,其自由度为(1)(1)rc,ijn一列联表中第i行第j列类别的实际频数,ije一列联表只第i行第j列类别的实际频数。方法二:Fisher精准检验Fisher精准检验是列联表行变量和列变量独立性的另一种检验方法,Fisher精准检验是在行与列边际总数固定的假设下,利用超几何分布,用枚举法计算列联表可能出现情况的概率,此时要检验的问题仍是OH:行变量和列变量相互独立。(1)首先介绍多元几何的多元推广,它是超几何分布的多元推广。定义:设随机向量X=1,2,()rxxx满足条件:(1)0iiXN(i=1,2,...,r),且12...rNNNN,(2)12,,...,rmmm为r个非负整数,iiomN且1(0)riimmmN,事件概率由下式给出:2211()rcijijijijnee51211212121()()...()!()!!((,,...)(,,...))()!!()!rriirRrriiiiNNNmNmNmmmPXXXmmmNNmNmm,则称X服从多元超几何分布,记为12~(,,...;).rXMHNNNm多元超几何分布的背景如下,共有N个个体分为r类,其中第(1,2,...,)iir类有iN个,现从总体中等可能无放回的抽取m个个体,用iX表示m个个体中属于第i类的个数,则12(,,...,)rXXXX服从多元超几何分布。特别当2r时,多元超几何分布就是超几何分布。①22表Fisher精准检验:观测表(Table)概率,双侧(Twosided)p值,左侧(Leftsided)p值,右侧(Rightsided)p值。观测表概率是按超几何分布计算的所观测到表格的概率。较小的双侧p值有利于行变量和列变量有关联的备择假设。对于22表,当行列边际总数固定时,如表1,11n的数值完全决定了整个表格,11n记为(1,1)单元格可能出现的频数,则Fisher精准检验的左侧p值是事件11{}nF的概率,右侧值是事件11{}nF的概率。表1XY1coll2coll合计1row11n12n1n2row21n22n2n合计1n2nn综上所述,有Tablep=p(11nF),Twosidedp=111111()()()pnpnFPn,Leftsidedp=1111()nFpn,Rightsidedp=1111()nFpn。如表1,在行边际总数固定条件下,可以把1row和2row两行看成两个独立的二项分布总体,则检验问题(1)中的0H相当于1row和2row有相同的二项分布,所以检验问题(1)写成0:()(1)(2)HpYcollpYcollXrowpYcollXrow,结合表1,则6112112:1OppHppp。(2)由此不难理解,在Fisher精准检验中,与检验水平相比较,小的左侧p值有利于备择假设:对于1row总体,观测属于coll的概率,小于其期望概率;小的右侧p值有利于备择假设:对于1row总体,观测属于coll的概率,大于其期望概率。即左侧p值和右侧p值分别对应检验问题(2)的如下备择假设;1111121111:,,:,,HpppLeftsidepHPPPRightsidep,综上所述,对22表,Fisher精准检验的左侧p值小于检验水平,说明1row的coll风险小于2row的coll风险,即1112pp,又等价于OR(OddsRatio,优比比率)大于1。右侧p值小于检验水平,说明1row的coll风险大于2row的coll风险,即1112pp。第三部分:用R语言解决x-c(2,5,6,7)(输入列联表中的数据,按列输,几行几列都输入命名为)dim(x)-c(2,2)(把以上输入的数据以2行2列的形式表达)rcl-as.data.frame(x)(把数据以数据框的形式表达)rcl(输出结果)V1v22436dimnames(rcl)[[1]]-c('a1','a2')(命名输入的数据框每一行的名字,分别为a1,a2)dimnames(rcl)[[2]]-c('b1','b2')(命名输入的数据框每一列的名字,分别为b1,b2)rcl(输出结果)b1b2a126a257Chisq.test(rcl)(用皮尔松卡方检验)Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:rcl7X-squared=0.0824,df=1,p-value=0.774(输出结果)最后看p-value值,p-value0.05,拒绝原假设,两者不是独立的,有一定关系。p-value0.05,接受原假设,两者是独立的,没有关系。从结论看,p-value=0.774,接受原假设,两者是独立没有关系的。第四部分例子:为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)。吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965s-c(7775,2099,42,49)dim(s)=c(2,2)s[,1][,2][1,]777542[2,]209949rcl-as.data.frame(s)rclV1V217775422209949dimnames(rcl)[[1]]-c('donotsmoke','smoke')dimnames(rcl)[[2]]-c('donotgetlungcancer','lungcancer')rcldonotgetlungcancerlungcancerdonotsmoke777542smoke209949chisq.test(rcl)Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:rclX-squared=54.721,df=1,p-value=1.389e-13从最后的p-value可以看出,p-value-0.05,拒绝原假设,说明吸烟与得肺癌之间是有关系的,吸烟的得肺癌几率大,不吸烟的得肺癌的几率要小,要不吸烟,减少得肺癌的几率。