第七章检验(卡方检验)2本章主要介绍卡方检验的基本概念、独立性检验方法、适合性检验方法在科研工作和牧业生产中,我们经常会碰到许多质量性状方面的资料,这些资料可以转化成率后使用t-test方法进行检验,但这仅限于一个样本率与总体率的比较、两个样本率间的比较除此之外,我们还可以用检验来完成检验工作特别当有多个样本进行比较时,必须用检验来完成22第一节的概念2在第四章中,我们讨论过分布有两个定义:定义一:定义二:前一个定义是针对数量性状资料的而后者主要是针对质量性状资料的22222221iinsxu222iioEonpEnp2在遗传学中,我们研究某一性状是否受一对等位基因的控制,该性状在后代的分离比例是否符合某种规律例1孟德尔的豌豆花试验(红花705朵、白花224朵):这一分离是否符合他自己提出的3:1的分离比例的假设?如果这一3:1的理论比例是正确的,那么这一试验所出现的红花和白花的理论比例应当是:红花:696.75白花:232.25观测值与理论值之间的差分别为:红花:8.25白花:-8.25显然,实际出现的红花、白花的朵数与理论值之间有一定的差异(如何用t-test来完成这一检验?)连续进行多次试验,每一次的结果都不会相同,每一次的结果都不会刚好符合理论值可以这样设想:观察值与理论值之间的差距越小,表示试验结果与理论值越相符;反之,观察值与理论值之间的距离越大,表示试验结果与理论值越不符当这一差值大到一定程度时,我们就可以认为豌豆花的颜色是不受一对等位基因控制的,可能是另外一种遗传模式但如何来界定这种相符或不相符?当我们将这两个差值相加,我们会发现其和为0,可以说,任何类似的问题其结果都是0:(705-696.75)+(224-232.25)=8.25+(-8.25)=0但若将差值平方后相加,其结果不会为0,且由于平方,使得原来较大的差变得更大了,因而增大了分析问题的灵敏性但由于每次试验的样本量不会相等,因而缺乏可比性,以理论值为标准进行比较,问题就解决了上例中:红花:白花:两者之和:2705696.750.098696.752224232.250.293232.2520.0980.2930.391例2正常情况下,中国婴儿的性别比为:♂51:♀49即每出生100个女婴,就有103~105个男婴统计某地区连续3年的婴儿性别比,得:男婴4691人:女婴4159人,试问该地区的新生儿性别比正常吗?我们用列表的方式检验之:婴儿性别实际值(O)理论值(E)O-E男婴46914513.5177.56.98女婴41594336.5-177.57.27合计88508850.0014.25显然,这一值较大,有可能这一地区的婴儿出生性别比不太正常(请用t-test进行检验,看这一性别比是否符合常规性别比)22OEE214.25例3长翅灰身(LLGG)的果蝇与残翅黑檀体(llgg)果蝇交配,其后代F1全为长翅灰身(L-G-),F1自群繁育,结果出现了4种表现型:长翅灰身(LLGG)×残翅黑檀体(llgg)长翅灰身(L-G-)长灰(L-G-)长黑(L-gg)残灰(llG-)残黑(llgg)1477493446143现假定控制翅膀长度和身体颜色的两对基因是相互独立的,且都是显隐性关系,则四种类型的果蝇其比例应当是9:3:3:1现需验证这次试验的结果是否符合这一分离比例首先求:1477+493+446+143=255932559479.811612559159.941622214771439.44143159.94...5.5191439.44159.94925591439.4416以上三个例子都要求我们判断观测值与理论值之间是否相符,而我们都可以得到一个值2检验的一般步骤:首先作无效假设其次计算值最后根据值出现的概率判断无效假设是否成立自由度不同,分布是不同的分布的自由度仅与性状的类别有关,而与次数无关例1中有两类花,因此其自由度为2–1=1例3中有4类果蝇,因此其自由度为4-1=3,等等22222当自由度为1时,检验应作连续性校正,校正的检验公式记作由于χ2分布是连续性分布,被检验的资料是离散型的分类资料,而从离散型资料得到的统计量只是近似地服从χ2分布,因此,为了保证有足够的近似程度,一般要求:①理论频数不少于5②自由度必须大于1,当自由度为1时,进行校正质量性状的资料作检验,有两种方法,下面分别进行讨论2222c第二节适合性检验适合性检验适用于某一实际资料是否符合一理论值,因此适合性检验常用于遗传学研究、质量鉴定、规范化作业、一批数据是否符合某种理论分布,等我们以例3来说明适合性检验的一般步骤设立无效假设,果蝇的分类观测值与理论值相符两者不符计算值,前面已经得到df=4-1=3查值表,得接受无效假设,即果蝇的这四种类型分离符合自由组合定律9:3:3:10:Hvs:AH20.05,37.815220.05,35.5197.8150.05p25.51922例2的值需重新计算,因为性别比只有两类,因此其自由度为1,应作连续性校正连续性校正公式是:先作无效假设:本例男女婴性别比符合常规比例不符常规比例计算值查值表,得0:Hvs:AH22||0.5cOEE22246914513.50.5|41594336.5|0.54513.54336.514.16c2c20.01,16.635220.01,114.166.635c0.01p22否定无效假设,接受备择假设,即该地区婴儿出生的性别比极显著偏离正常性别比,应查找原因(例1是否需要作连续性校正?)上一章中关于鹅场鹅蛋受精率的例题是否可以用检验?如果可以的话,是否需作连续性校正?(请同学们自行完成之)2又例:红色鲤鱼×瓦灰色鲤鱼瓦灰色鲤鱼红色鲤鱼瓦灰色鲤鱼(1738尾)(5504尾)试分析其遗传规律显然,从两代鲤鱼的体色变化,可以看出,红色为隐性,瓦灰色为显性,但是否是完全显隐性关系需做遗传学分析假定这是一对完全显隐性基因在起作用,红色和瓦灰色应当是1:3的关系设H0:鲤鱼体色分离比例为1:3VSHA:分离比例不符合1:3由于这里只有两种体色变化,因此df=2-1=1需作校正性的χ2检验:首先求:1738+5504=72427242÷4=1810.51810.5×3=5431.5接受H0,即鲤鱼体色分离符合1:3的理论比例,说明鲤鱼的这一性状是完全的显隐性遗传关系22220.05|17381810.5|0.555045431.50.51810.55431.53.8183.84c0.05p的分割有时候,经检验,被推翻,而接受了,即表示整个资料不符合某一理论比例,但这总的值不能反映是全部资料均不符合理论比例,还是其中部分资料不符合比例,因此我们应进行值的分割下面我们看一个例题22220HAH例:两对性状F2分离的四种表现型观测资料分别为154、43、53、6,试问该批资料是否符合9:3:3:1?该例的自由度为4-1=3(不需要进行校正)先计算理论次数:154+43+53+6=256A-B-:144A-bb:48aaB-:48aabb:16设立无效假设(略)2222220.05,3154144434853486161444848160.6940.5210.5216.257.9867.8150.05p否定无效假设,接受备择假设,即这批资料与设定的理论分离比例9:3:3:1不符是整批资料都不符?还是部分不符?我们需作进一步的分析,因此应对作分割这种分割是建立在具有可加性的特点上的而这种可加性只有在次数资料各部分相互独立、且不作连续性校正的基础上才能成立该例的四个分值分别为:0.694+0.521+0.521+6.25=7.986222显然,前面三个分值较小,因此先取前三部分的比例作检验:154+43+53=250A-B-:150A-bb:50aaB-:50无效假设(怎么设?)接受无效假设,即这三部分资料的实际观测值符合9:3:3的理论比例再检查余下的aabb与这三部分之和是否符合1:152222220.05,21541504350535015050500.1070.980.181.2675.9910.05p前三部分之和(理论值):240aabb:16这说明aabb不符合理论比例检验中的适合性检验一般要求样本量应大一些,样本较小会影响到检验的正确性,特别是当理论比例中有较小值时(上一例中的aabb),更应当注意样本容量,这一例即有样本偏小的倾向22220.05,12502400.5|616|0.5240160.3765.6416.0173.841c0.05p2第三节独立性检验独立性检验是检查两个变量、两个事件是否相互独立的这么一种检验例如:猪舍消毒与否与猪病的发生是否有关?若两者相互独立,即表示消毒无效:消毒后猪的发病率与没有消毒是一样的如果消毒后猪的发病率显著降低了,表示猪的发病率与消毒与否这两者间是有关系的因此,独立性检验的无效假设是两变量相互独立,其备择假设是两变量相关(即两者之间有依存关系)在设立无效假设的前提下,计算值,当时,接受无效假设,即两变量相互独立当否定无效假设,接受备择假设,即两变量之间存在相关独立性检验没有理论比率,因此必须用列表的方式从现有的观测值次数来推算理论比值这种用表的方式来推算理论次数的方法是建立在两因子无关(两因子相互独立),即两因子齐性的基础上的22222下面我们分别各种情况来介绍独立性检验一、2×2表我们结合实际例子来说明这种表的使用将苗鸡放进鸡舍前先将鸡舍消毒,检验消毒能否减轻苗鸡的发病情况先作一试验,得数据如下:发病不发病合计消毒300(a)920(b)1220不消毒580(c)630(d)1210合计88015502430这张表共2行、2列,因此称为2×2表从这张表中我们可以看出,消毒的鸡舍中,有发病的苗鸡,也有不发病的苗鸡;没消毒的鸡舍中,苗鸡也有发病和不发病两种假设鸡舍是否消毒不影响苗鸡的发病情况(这是无效假设的前提和内容),那么,消毒鸡舍和不消毒鸡舍中苗鸡的发病率应当是一样的,所产生的误差是抽样误差,即:1220880:2430a1220880441.812430a15501220778.192430b8801210438.192430c15501210771.812430d得:同样的道理,我们可得:我们将上述理论值填入表格中:发病不发病合计消毒300(441.81)920(778.19)1220不消毒580(438.19)630(771.81)1210合计88015502430表中,括弧内的就是理论值需要注意的是,这种结构的检验其自由度是横行数减1乘以纵列数减1:因此这里应该使用校正公式计算值同学们先自行计算222||0.5cOEE212112c设立无效假设设苗鸡的发病与鸡舍消毒与否无关(或:鸡舍消毒与否不影响苗鸡是否发病)苗鸡的发病与鸡舍消毒与否有关(或:鸡舍消毒与否直接影响苗鸡的发病)得:否定无效假设,即鸡舍消毒与否极显著地影响着鸡的发病(或鸡的发病情况直接受鸡舍消毒与否的影响)2222220.01,1|300441.81|0.5920778.190.5441.81778.19580438.190.5|630771.81|0.5438.19771.81142.306.635c0.01p0:H:AHvs二、R×C表(R:行rowC:列column)R×C表是2×2表的扩展,反之,2×2表也可以