(卡方)检验第八章2问题一:一对因子遗传实验,白猪和黑猪杂交F2代260头,181头白猪,请问毛色分离是否受一对等位基因控制?问题二:某村近5年来出生112名男孩,88名女孩,请问该村近5年出生的男女比例是否失调?问题三:猪场为检验某种疫苗是否有预防效果,注射疫苗的猪44头,有12头发病;未注射疫苗猪有36头其中发病的有22头,请问该疫苗是否有预防效果?第一节χ2检验的原理χ2检验是通过提出某种假定的理论值与实际值进行比较,从而确定两者的符合程度。适合性检验(testforgoodness-of-it)通常用于实际次数与理论次数之间的比较。独立性检验(testforindependence)是研究两类实验因子之间相互独立还是相互影响。ui~N(0,1)n连续性数据的χ2定义nuuu...2,12222212...inuuuu2)(212)(nniix,11xu,22xu,nnxu一、χ2检验的原理不同自由度的概率密度的曲线223值,即右尾率下的给出了不同自由度及概附表)()()概率为:其右尾(22i22F-1P)(202222)d()()(2ifFPi次数资料的χ2定义其中:O-观测次数E-理论次数EEO22)(例青豆、黄豆(仅颜色不同)各1000粒混于小罐中,每次抽取100粒。第一次抽样得青豆53粒,黄豆47粒;第二次抽样得青豆42粒,黄豆58粒,分别求χ2值并比较两次实验值与理论值的符合程度。56.250505850504236.050505350504722222221抽样1所得次数值与理论值更相符合。卡方测验为单尾测验,对于一定的自由度,df=3若则推断为显著;若则推断为不显著χ2的显著性是相对于某一统计假设来说----独立性测验和适合性测验205.02205.02近似服从χ2分布χ2分布是连续性随机变量的概率分布,而次数资料是间断型的。χ2检验是右侧检验观察频数与理论频数相差越大,χ2值越大,只有大的χ2值才可能否定原假设,所以卡方检验始终是右侧检验。连续性矫正当资料的df=1和小样本尤其是理论次数小于5的情况下,由连续型的x2分布推得的概率与真正概率差异较大,必须进行矫正。矫正后的x2值:EEOc2221二、χ2检验的一般步骤a.提出无效假设b.计算理论次数Ec.计算统计量χ2值d.统计推断例1一对因子遗传实验,观察白猪和黑猪杂交仔二代260头;其中有白猪181头,黑猪79头。问毛色分离是否受一对等位基因控制?1、H0:猪毛色F2分离符合3:1比率HA:不符合2、计算理论次数:白猪理论头数:260×3/4=195黑猪理论头数:260×1/4=65一、实际资料与先验理论的适合性检验第二节适合性检验3、列计算表:性状实际次数(O)理论次数(E)白色181195黑色7965总和2602604、求值:2c739.36521796519521195181212222EEOc5、查表:df=n-1=2-1=1(计算理论次数时受一个总数的限制)查表得,差异不显著,表明实际次数与理论次数是符合的。本例如果不矫正,其结果:2,05.0,,841.3205.02205.0P020.46565791951951812222EEO求得差异显著,可推断实际次数与理论次数是不符合的。可见当时矫正是很有必要的。,05.0,205.02P1df性状黑色无角黑色有角红色无角红色有角总数观察次数(O)15239536250理论次数(E)140.62546.87546.87515.625250O-E11.375-7.8756.125-9.625不符合的比率代分离符合所研究性状解::H1:3:3:9:1)H(A20F计算理论次数)2(计算卡方值计算理论次数列次数表例2两对因子遗传实验,用黑色无角牛和红色有角牛杂交仔二代出现黑色无角牛152头,黑色有角牛39头,红色无角53头,红色有角6头,共250头。问两对性状分离是否符合9:3:3:1的遗传比例?9724.8625.25)625.9(...875.46)875.27(625.140375.1122227.81531420.05查df7.81520.052结论与解释(3)个比率的符合程度方检验的再分割确定各需用卡:传的分离比例代的分离不符合独立遗表明1,:3:39F2A0HH,05.0,接受否定P性状黑色无角黑色有角红色无角总数观察次数(O)1523953244理论次数(E)146.448.848.8244O-E5.6-9.84.2544.28.48)8.4853(8.48)8.4839(4.146)4.146152(222299.5213205.0查df99.5544.2205.02P>0.05说明实际观测次数与理论次数差异不显著,3种表现型的分离符合独立遗传的分离比例9:3:384.3324.605.022说明实际观测次数与理论次数差异显著,3种表现型组合与红色有角比率不符合15:1的分离。,05.0,205.02P3243.6625.15)625.156(375.234)375.234244(222性状合并组红色有角总数观察次数(O)2446250理论次数(E)234.37515.625250O-E9.625-9.625例343窝小白鼠(N=43),每窝4只,经某剂量射线照射后14天内各窝死亡情况:全部成活的有13窝;死一只的有20窝;死2只的有7窝;死3只的有3窝;全部死亡的一窝没有.检验射线照射后小白鼠死亡数是否服从二项分布。二、实际资料与理论分布相符合程度的适合性检验H0:小白鼠死亡数服从二项分布;HA:小白鼠死亡数不服从二项分布。每窝死亡只数x~B(4,p)4033271200130.25434p平均死亡率平均死亡率为p=0.25n=4,每窝死亡的概率为:0469.075.025.0)3(1334CXP小白鼠死亡n+1种类型的概率:kkkppCkXP441)(3164.075.0)0(404CXP2109.075.025.0)2(2224CXP4219.075.025.0)1(4114CXP0039.075.025.0)4(0444CXP死亡数观察窝数理论概率观察窝数0130.316413.6051200.421918.141270.21099.068330.04692.016400.00390.167总4343•df=3-2=1(5组合并成3组,计算理论次数时受一个总数和平均数的限制)•校正公式计算:•=0.05,220.05(1)=3.84,P0.05,•接受H0,射线照射后小白鼠的死亡数服从二项分布1529.00504.01017.00008.0)5.0(22EEoc•当实际次数分布以二项分布或波松分布配合时,由于每一理论次数受总次数和平均数np的限制,所以df=k-1-1注意将每一理论次数5的组合并到5的组,上述计算的df的k指合并后的组数根据处理及考察指标的多少分为不同的两向列联表独立性测验又叫次数资料的相依性检验。它是检验两个方向上的数据资料的表现是相互独立的还是相互影响的一种统计分析方法。第三节独立性检验列联表处理类别合计12…k1O11O12…O1KR12O21O22…O2KR2………………rOr1Or2…OrKRr合计C1C2…CKGk是变量的类别数,r是处理的个数自由度总自由度(rk-1)减去行自由度(r-1)减去列自由度(k-1)df=(rk-1)-(r-1)-(k-1)=(r-1)(k-1)一、2×2列联表的检验【例1】某猪场用80头猪检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有12头发病,32头未发病;未注射的36头中有22头发病,14头未发病,问该疫苗是否有预防效果?1、提出无效假设与备择假设•H0:发病与否和注射疫苗无关,即二因子相互独立。•HA:发病与否和注射疫苗有关,即二因子彼此相关。2、计算理论次数•根据二因子相互独立的假设,注射疫苗与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同,均应等于总发病率34/80=0.425=42.5%。注射组的理论发病数:T11=44×34/80=18.7注射组的理论未发病数:T12=44×46/80=25.3,或T12=44-18.7=25.3;未注射组的理论发病数:T21=36×34/80=15.3,或T21=34-18.7=15.3;未注射组的理论未发病数:T22=36×46/80=20.7,或T22=36-15.3=20.7。•从上述各理论次数Tij的计算可以看到,理论次数的计算利用了行、列总和,总总和,4个理论次数仅有一个是独立的。•自由度为1,应选择矫正的统计量。3.15)5.0|3.1522(|3.25)5.0|3.2532(|7.18)5.0|7.1812(|2222c944.77.20)5.0|7.2014(|23、计算统计量:2c4、查自由度df=1的2临界值,作出统计推断•因为20.01(1)=6.63,•=7.94420.01(1),P0.01,•否定H0,接受HA,•表明发病率与是否注射疫苗极显著相关,这里表现为注射组发病率极显著低于未注射组,说明该疫苗是有预防效果的。2c2*2列联表计算卡方值的简化形式(N≥40):dbcadcbaNNbcaddbcadcbaNbcadc22222/治疗方法发病未发病行总和发病率注射12(a)(18.7)32(b)(25.3)44(TR1)27.3%未注射22(c)(15.3)14(d)(20.7)36(TR2)61.1%列总和34(Tc1)46(Tc2)80(T)944.74436463480)280|22321412(|22c治疗方法发病未发病行总和发病率注射12324427.3%未注射22143661.1%列总和344680例2:在甲、乙两地区进行水牛体型调查,将牛的体型按优、良、中、劣四个等级分类,其结果见下表,试问两地区间水牛体型有无差异?优良中劣总和甲10(13.3)10(10.0)60(53.3)10(13.4)90乙10(6.7)5(5.0)20(26.7)10(6.6)45总和20158020135地区体型2*c表独立性检验1.提出无效假设与备择假设•H0:水牛体型构成比与地区无关,即两地水牛体型构成比相同。•HA:水牛体型构成比与地区有关,即两地水牛体型构成比不同。582.76.6)6.610(7.26)7.2620(10)1010(3.13)3.1310(222223.计算2值2.计算各个理论次数4.查自由度df=3的2临界值,作出统计推断•因为20.05(3)=7.81•2=7.58220.05(3),p0.05,•不能否定H0,可以认为甲、乙两地水牛体型构成比相同。•或]....[....22222122TTTATTTjj在进行2×c列联表独立性检验时,可利用下述简化公式:]....[....21212122TTTATTTjj利用第2个简化式计算2值:502.7]13545201080201552010[45901352222222优良中劣总和甲1010601090乙105201045总和20158020135【例】分别统计了A、B两个品种各67头经产母猪的产仔情况,结果见下表,问A