x2检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

计数资料的统计推断教师:数学统计教研室胡冬梅卡方检验是χ2检验(Chi-squaretest)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,是分类计数资料的假设检验方法,可用于两个或多个率间或构成比之间的比较,计数资料的关联度分析,拟合优度检验等等。χ2检验行×列表χ2检验四格表χ2检验配对四格表χ2检验配对R×R表的χ2检验拟合优度检验关联性分析某医生想观察一种新药对流感的预防效果,进行了如下的研究,问此药是否有效?组别发病人数未发病人数观察例数发病率(%)实验组148610014对照组309012025合计4417622020一、基本公式:A:表示实际频数,即实际观察到的例数。T:理论频数,即如果假设检验成立,应该观察到的例数。自由度=(R-1)x(C-1)R行数,C列数,nR是ARC所在行的合计,nC是ARC所在列的合计22()RCRCRCATTRCRCnnTn举例买彩票奖项一等二等三等四等五等中奖概率1%5%10%20%64%T1050100200640A0020180800002%18%80%二、基本原理基本思想是检验实际频数和理论频数的差别是否由抽样误差所引起的,由样本率来推断总体率。x2反映了实际频数于理论频数的吻合程度,x2值大,说明实际频数和理论频数的差距大,如果假设检验成立,A与T不应该相差太大。理论上可以证明服从x2分布,计算出x2值后,查表判断这么大的x2是否为小概率事件,以判断建设检验是否成立。22()ATT0.00.10.20.30.40.50369121518卡方值纵高自由度=1自由度=2自由度=3自由度=62/)12/(2222)2/(21)(ef3.847.8112.59P=0.05的临界值χ2分布(chi-squaredistribution)自由度一定时,P值越小,x2值越大。当P值一定时,自由度越大,x2越大。v=1时,P=0.05,x2=3.84P=0.01,x2=6.63P=0.05时,v=1,x2=3.84v=2,x2=5.99三、行×列表χ2检验公式:自由度=(R-1)x(C-1)R行数,C列数,nR是ARC所在行的合计,nC是ARC所在列的合计22()RCRCRCATT221RCAnnn例题:例8.1某研究人员收集了亚洲、欧洲和北美洲人的A、B、AB、O血型资料,结果见表所示,其目的是研究不同地区的人群血型分类构成比是否一样地区ABABO合计亚洲321369952951080欧洲2584322194517北美洲40810637444995合计9875181549332592三个不同地区血型样本的频数分布1.建立假设H0:不同地区的人群血型分布构成相同H1:不同地区的人群血型分布构成不同或不全相同2.α=0.053.计算检验统计T11=1080×987/2592=411.5T12=215.83T13=64.17T14=388.75T21=196.87T22=103.32T23=30.72T24=186.10T31=378.88T32=198.8T33=59.12T34=358.154.查χ2界值表v=(3-1)(4-1)=6,由于则P0.05,拒绝H0,认为三个地区的人群血型分布构成不同或不全相同。222232141.25444358.15411.25358.1519.8120.58297.59ATT20.05(6)12.59220.05(6)1.建立假设H0:不同地区的人群血型分布构成相同H1:不同地区的人群血型分布构成不同或不全相同2.α=0.053.计算检验统计4.查χ2界值表v=(3-1)(4-1)=6,由于则P0.05,拒绝H0,认为三个地区的人群血型分布构成不同或不全相同。2222321444125921297.561080987995933RCAnnn20.05(6)12.59220.05(6)行×列表χ2检验注意事项1.若1/5的理论频数小于5进一步增大样本含量将相临的两行或两列合并2.总的结论有统计学意义,即有差异,并不说明任意两组间都有差异,做行×列表的分割才能检验任意两组间是否有差异3.有些资料不适合做x2检验,如等级资料四、四格表χ2检验一般格式B1B2A1aba+bA2cdc+da+cb+dn=a+b+c+d四格表格式四格表统计量公式22()RCRCRCATT22adbcnacabcdbd当n≥40,T≥5时四格表统计量公式22(0.5)ATT222nadbcnacabcdbd当n≥40,1≤T<5时四格表确切概率法该方法是由R.A.Fisher提出的,其理论依据是超几何分布四格表资料,若有理论数小于1或n<40,或作χ2检验后所得概率P接近检验水准α,需要用确切概率法直接计算概率以作判断。实际上,当有统计软件条件下,大样本四格表的资料也可用确切概率检验四格表确切概率法确切概率计算方法的基本思想:在四格表边缘合计固定不变的条件下,利用公式直接计算表内四个格子数据的各种组合的概率,然后计算单侧或双侧累计概率,并与检验水准比较,作出是否拒绝H0的结论!!!!!!!!abcbacbdpabcd五、配对四格表χ2检验一般形式注意:a、b、c、d代表的是对子数+-+aba+b-cdc+d合计a+cb+dn=a+b+c+d乙属性合计甲属性配对四格表和一般四格表比较配对设计表5-3某抗癌新药两种剂量的毒理实验结果乙剂量甲剂量死亡(+)生存(-)合计死亡(+)6(a)12(b)18生存(-)3(c)18(d)21合计93039成组设计表某抗癌新药两种剂量的毒理实验结果结果分组死亡(+)生存(-)合计甲剂量(a)(b)乙剂量(c)(d)合计78对子号甲剂量乙剂量1死亡死亡2死亡生存………39生存生存编号剂量组结果1甲死亡2乙生存………78甲生存配对四格表差异性检验统计量公式22,1bcvbc221,1bcvbc当b+c>40时当b+c≤40时小结熟悉检验的基本思想掌握检验在四表格资料、配对四格表资料、行×列表资料中的应用了解行×列表的分割法及四表格的确切概率法六、拟合优度检验也称适合性检验,是在根据样本频率分布检验其总体分布是否等于给定的理论分布22()iiiATT七、四格表的关联性分析H0:无关,即两变量相互独立H1:有关,即具有一致性22adbcnacabcdbd八、行×列表的关联性分析H0:无关联H1:有关联221RCAnnn1.下列不能用χ2检验的是()A.成组设计的两样本频率的比较B.配对设计的两样本频率的比较C.多个样本频率的比较D.频率分布的比较E.等级资料实验效应间的比较E2.对于总合计数n为400的4个样本率的资料做检验,其自由度为()A.399B.395C.1D.3E.8C3.当四格表的周边合计不变时,如果某格的实际频数有变化,则其理论频数()A.增大B.减小C.不变D.不确定E.增大或减少C4.从甲、乙两文中,查到同类研究的两个率的比较的四格表资料,其χ2检验,甲文,乙文,可认为()A.两文结果有矛盾B.两文结果基本一致C.甲文结果更可信D.甲文结果不可信E.甲文说明总体的差别大220.01(1)220.05(1)C5.通常分析四格表在()情况下需用Fisher精确概率计算法。A.T5B.T1或n40C.T1且n40D.1≤T5且n40E.T5或n40B6.χ2值的取值范围是()A.-∞<χ2<∞B.-∞<χ2<0C.0<χ2<∞D.-1<χ2<1E.χ2≤1C7.R×C表的自由度是()A.R-1B.C-1C.R×CD.(R―1)×(C―1)E.样本含量减1D8.三个样本频率比较,,可以认为()A.各总体频率不等或不全相等B.各总体频率均不相等C.各样本频率均不相等D.各样本频率不等或不全相等E.各总体频率相等220.05(2)A9.用两种方法检查已确诊的乳腺癌患者120名。甲法的检出率为60%,乙法的检出率为50%,甲乙两法一致的检出率为35%,试问两者方法何者为优?

1 / 35
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功