第五章卡方检验教学目的要求掌握:卡方检验的适用条件和计算公式;适合性检验的基本原理和方法;独立性检验的原理和方法。熟悉:适合性检验和独立性检验的应用。了解:适合性检验在遗传学及其他生物学科中上的应用。讲授内容一、卡方检验的原理和方法二、适合性检验三、独立性检验一、卡方检验的原理和方法1、卡方检验的原理应用理论值(expectedvalue,E)与观测值(observedvalue,O)之间的偏离程度来决定卡方值的大小。2、卡方检验的程序将观测值分为k组计算n次观测值中每组的观测频数,记为Oi根据变量的分布规律或概率运算法则,计算每组的理论频率为Pi计算每组的理论频数Ei检验Oi与Ei的差异显著性,判断两者之间的不符合度a、零假设:H0:O-E=0;备择假设:O-E≠0(这里检验的不是参数,而是判断观测数是否符合理论分布)b、检验统计量:这里要求n充分的大,当n≥50时(最好≥100),所定义的检验统计量近似服从卡方分布,Ei=nPi不得小于5,若小于5,将尾区相邻的组合并,直到合并后的组的Ei≥5,合并后再计算卡方值。k1i2iii2dfEEO)(c、建立拒绝域d、作出统计学结论用来检验观测数与依照某种假设或分布模型计算得到的理论数之间一致性的一种统计假设检验,以便判断该假设或模型是否与实际观测数相吻合。二、适合性检验(goodnessoffit)(一)总体参数未知的正态性检验155153159155150159157159151152159158153153144156150157160150150150160156160155160151157155159161156141156145156153158161157149153153155162154152162155161159161156162151152154157162158155153151157156153147158155148163156163154158152163158154164155156158164148164154157165158166154154157167157159170158例1高粱“三尺三”株高测定结果(cm)题解组号组限/cm组界/cm中值频数频率1141~143140.5~143.514210.012144~146143.5~146.514520.023147~149146.5~149.514840.044150~152149.5~152.5151130.135153~155152.5~155.5154230.236156~158155.5~158.5157280.287159~161158.5~161.5160150.158162~164161.5~164.5163100.109165~167164.5~167.516630.0310168~170167.5~170.516910.01——总计————1001高粱“三尺三”株高频数分布表(1)将观测值分为k组;按照分组原理分成10组,制成频数分布表(2)获得的n次观测值中,第i组的观测频数记为Oi,(3)第i组的理论频率为Pi,其计算方法如下:①先计算样本平均数和标准差②假设高粱“三尺三”符合正态分布。根据参数估计原理,用估计,用s/c4=4.98/0.9975=4.99估计(样本标准差分布的矩系数C4、C5表)。即假设高粱的株高x服从正态分布③根据正态分布概率的计算关系,查附表1,计算各组组界的理论频率100,1inniOkx156.1cms4.98cm2,x299.4,1.156组号组界/cm观察频数(Oi)观察频率(Pi)理论频率(P)理论频数(Ei)1140.5~143.510.010.0050.52143.5~146.520.020.0222.23146.5~149.540.040.0666.64149.5~152.5130.130.14214.25152.5~155.5230.230.21621.66155.5~158.5280.280.23223.27158.5~161.5150.150.17617.68161.5~164.5100.100.0949.49164.5~167.530.030.0353.510167.5~170.510.010.0090.9————1001.001.00100高粱“三尺三”株高观察频数和理论频数表(4)计算各组的理论频数为Ei=npi,填入下表组号组界/cm观察频数(Oi)观察频率(Pi)理论频率(P)理论频数(Ei)卡方值1~3140.5~149.570.070.0939.300.5694149.5~152.5130.130.14214.20.1015152.5~155.5230.230.21621.60.0916155.5~158.5280.280.23223.20.9937158.5~161.5150.150.17617.60.3848~10161.5~164.5140.140.13813.80.003总计——1001.001.001002.141(5)Oi与Ei进行比较,判断两者之间的不符合度,检验程序如下:①零假设:H0:O-E=0;HA:O-E≠0②检验统计量:高粱“三尺三”株高观察频数和理论频数表(合并后)k1i2iii2EEO)(卡方值的自由度df=k-1-a,其中k为合并后的组数,a为需要由样估计的总体参数的个数;合并后的组数k=6,由样本估计了总体的平均数和标准差,故a=2,df=3,不用校正,计算卡方值③建立拒绝域④结论:高粱株高服从正态分布41.12EEOk1ii2ii2815.7205.0,3205.0,2df(二)总体参数已知的正态性检验例2自动包装的袋装食盐的重量是否服从正态分布?已知每袋标准重量为500g,调查了100袋,结果如下表所示。袋装食盐重量调查表500512515542522514488497475487497500518508530508500479506504493491506487486491505478492512498494482482512527522470493548502496494494488505472482506478494518503503503485529476496500499484517517506500503527500499490496491491490520512482488509488518516516530508492486492536494500511511506493522524492478题解(1)零假设:H0:O-E=0;备择假设HA:O-E≠0(2)分组:样本容量n=100,取组数m=10,组距为8g(3)计算理论频率pi和理论频数Ei(4)检验统计量的计算(5)自由度df=k-1-a=8-1-1=6(6)拒绝域的建立(7)接受H0,服从正态分布638.16TTOk1ii2ii2(三)总体参数未知的二项分布检验例3检验烟草种子的发芽率,每个培养皿放10粒种子,共100个培养皿,实验结果如下表所示。1000粒种子有590粒发芽,检验发芽的种子数是否符合二项分布。每皿发芽种子数Xi观察频数(Oi)001020344145226277198995100总计100烟草种子发芽率的观察频数每皿发芽种子数Xi观察频数(Oi)OiXi理论频率(P)理论频数(Ei)卡方值0000.00016.250.811000.00192000.012534120.0480414560.120912.090.3025221100.208720.870.0616271620.250325.030.1557191330.205820.580.12189720.111115.710.0995450.035510000.0051总计10059011001.539烟草种子发芽率的观察频数和理论频数表题解1、提出假设H0:O-E=0;HA:O-E≠02、总体参数未知,需要由样本比例估计P=590/1000=0.593、计算理论值和卡方值,理论频率Pi按照二项分布公式计算——n=10,0≤k≤10,理论数Ei=NPi4、拒绝域的建立5、结论:种子发芽率服从二项分布kkki)p1(ppnnC39.51EEOk1ii2ii2(四)总体参数已知的二项分布检验例4水稻植株中对白叶枯病有抗性的纯合体的基因型为SS,对白叶枯病敏感的纯合体为ss,杂合体的基因型为Ss。其中抗性为显性性状,敏感为隐性性状,将Ss与ss进行杂交,20个后代中有14株抗性植株,6株敏感植株。问后代的分离比是否符合孟德尔分离定律?表型观察频数(Oi)理论频数(Ei)卡方值抗性植株14101.225敏感植株6101.225总计20202.45题解按照孟德尔分离定律,Ss与ss的杂交后代代表型的比例应该为1:1,即10个抗性植株和10个敏感植株(1)提出假设H0:O-E=0;HA:O-E≠0(2)计算理论值和卡方值:理论值就是根据孟德尔遗传定律计算得到的后代分离理论数量(3)检验统计量的计算:本例是两组数据,没有估计参数,k=2,a=0,df=1,样本统计量需要连续矫正(4)拒绝域的建立(5)结论:符合孟德尔分离定律适合性检验的自动程序:P=Chitest(Oi,Ei):Oi表示观察值区域;Ei表示理论值区域;用于适合性检验5.42E.50EOk1ii2ii2三、独立性检验原理:通过观测数与理论数之间的一致性判断事件之间的独立性,即判断两个事件是否是独立事件或处理间差异是否显著。方法:将数据列成列联表,也称列联表卡方检验。一、2×2列联表卡方检验(一)原理:例5青霉素可以注射,也可以口服,每天给感冒患者口服或注射80万单位的青霉素,调查两种给药方式的药效,结果如下表所示,试分析青霉素的两种给药方式的药用效果是否有差异?两种青霉素的给药方式的药用效果调查表给药方式有效(A)无效(Ā)总数有效率口服(B)58409859.20%注射()64319567.40%总计12271193——B一般考虑样本中各处理之间是否有关联,处理间是否是独立事件检验时以各处理间无关联或者各处理是独立事件作为零假设在一定自由度下和显著水平下进行卡方检验独立检验(independencetest)(二)检验程序1、提出假设H0:O-E=0;HA:O-E≠02、根据概率的乘法法则计算理论数:理论数的计算方法——给药方式有效(A)无效(Ā)总数口服(B)O1=58E1=98×122/193=61.95O2=40E2=98×71/193=36.0598注射()O3=64E1=95×122/193=60.05O4=31E1=95×71/193=34.9595总计12271193B两种青霉素的给药方式的药用效果调查的观测值和理论值总数列总数行总数jEiji3、检验统计量:4、确定自由度:2×2列联表的自由度df=(r-1)(c-1),r是列联表的行数,c是列联表的列数,若自由度=1,则应做连续性校正,校正后的统计量为:k1i2iii2EEO)(061.1E5.0EOk1i2iii2df)(5、拒绝域的建立:6、结论青霉素口服效果与注射效果差异不大。注意:2×2列联表卡方检验与之前讲的吻合度检验一样,要求理论数不得小于5;当理论数小于5时,应使用2×2列联表精确检验法。22二、r×c列联表行数和列数都大于2时的情况称为r×c列联表,其理论数的计算仍为总数列总数行总数jEiji例6植物转基因方法常用的有三种:基因枪介导转化法、农杆菌介导转化法和花粉管通道法,三种方法转化烟草的成功率(种子数)如表所示,问三种转基因方法的转基因成功率差异是否显著?转基因方式阳性种子假阳性种子总数