第3章非参数假设检验(分布检验)3.1两个总体分布的非参数假设检验3.1.1检验两个总体的分布是否相同的第一种方法:符号检验法(正负号个数检验法)3.1.2检验两个总体的分布是否相同的第二种方法:Wilcoxon秩和检验法(序号和检验法)3.1.3检验两个总体的分布是否相同的第三种方法:Mann-Whitney秩和检验法(序号和检验法)3.1.4两个总体分布的非参数检验小结实际问题中,经常要检验两种不同的处理方法效果是否相同。例如,比较在不同钻机、不同操作人员、不同地质条件下,钻机效率是否相同等等。诸如此类问题是对两个总体的分布是否相同的检验。本章主要介绍两种简单易行的方法:“符号检验法”和“秩和检验法”。3.1两个总体分布的非参数假设检验3.1.1检验两个总体的分布是否相同的第一种方法:符号检验法(正负号个数检验法)配对样本配对样本:按某些重要特征相近的原则,可将两样本中的每一个体配成对子,这两组样本称为配对样本。配对样本的属性:1)两样本的观察数量应相同;2)两样本观察顺序不能各自独立地颠倒。配对样本的概念及属性配对样本可以是同一研究对象分别给于两种不同处理的效果比较的观察值;或,同一研究对象处理前后的效果比较的观察值。例:某种干电池,在一定温度下存放之后它的电压有可能升高也可能降低。我们取10个样品做实验。数据如下:编号12345678910存前电压1.01.11.21.31.41.51.61.71.81.9存后电压1.91.81.71.61.51.41.31.21.11.0这两组观察数据即为配对样本。配对样本示例例:为了探索长跑对学生体质发展的影响,随机抽取同年龄男生8名,经5个月长跑训练,观测训练前、后心脏功能是否有所增强,用晨脉这个指标来反映,训练前、后的晨脉测试结果如下表,问长跑对晨脉的影响有无显著意义?训练前、后晨脉数据表单位:次/分钟编号1234678训练前70665663565847训练后48545262555445这两组观察数据即为配对样本。例:现有18名学生按身体条件大体相近配成9对,并用随机分组将他们分为甲、乙两组,由一位教师采用不同的教法执教一年,一年后测得她们的平衡术成绩(见下表),问两种不同教法的效果是否有显著差异?一年后甲、乙两组平衡术成绩表配对号123456789甲组8.79.38.29.07.68.98.19.58.4乙组7.88.28.48.17.98.08.28.16.8这两组观察数据即为配对样本。令xiyi的事件为Ai,其取值为1,0于是A=A1+A2+...+An服从二项分布即,在H0:F(x)=G(y)的假设下,可以把抽样过程看成一个近似的贝努利实验,服从B(m,p)分布。iiiiiyx,yx,A011.小样本情况下,正负号个数检验法的处理(方法一)如果实际的“xi-yi0的个数n+”在(k1,k2)中,就接受H0:p=0.5(即F(x)=G(y)),否则,拒绝H0,认为p≠0.5,即F(x)≠G(y)。1.小样本情况下,正负号个数检验法的处理(方法二)(1)建立假设零假设H0:备择假设H1:(2)计算差值d并赋予符号d=xi-yid>0,记为“+”,总个数记为n+d<0,记为“-”,总个数记为n-d=0,记为“0”,总个数记为n0m=n++n-检验的统计量为K,K为n+、n-中的较小者,即K=min{n+,n-})y(G)x(F)y(G)x(F(3)统计推断由m查表得临界值K0.05(m),K0.01(m),作统计推断:如果K>K0.05(m),即P>0.05,则不能否定HO,两个试验处理差异不显著;如果K0.01(m)<K≤K0.05(m),即0.01<P≤0.05,则否定HO,接受H1,两个试验处理差异显著;如果K≤K0.01(m),即P≤0.01,则否定HO,接受H1,两个试验处理差异极显著。符号检验统计判断规则K与临界值的比较P值显著性KK0.05(m)P>0.05不显著K0.01(m)<K≤K0.05(m)0.01<P≤0.05显著K≤K0.01(m)P≤0.01极显著例:研究人员将三岁儿童经配对而成的实验组进行颜色试验教学,对照组不进行此种教学。后期测验得分如下表。问颜色教学是否有显著效果?已知K0.05(10)=1。配对123456789101112得分实验组X1182026142525211214172019对照组X2142023122918211016131725解:(1)建立假设。H0:颜色教学无显著效果;H1:颜色教学有显著效果(2)求差数并记符号,差值计算列于下表。由表可知,n+=7,n-=3,于是,m=n++n-=10。将n+和n-中的较小者记为K,K=3。(3)统计推断根据m=10,查符号检验表找临界值,K0.05(10)=1,而KK0.05(10),不显著。即,接受原假设,认为:颜色教学无显著效果。配对123456789101112得分实验组X1182026142525211214172019对照组X2142023122918211016131725差数符号+0++-+0+-++-练习∶某研究测定了噪声刺激前后15只羊的心率,结果见下表。问噪声对羊的心率有无显著影响?已知,K0.05(15)=3,K0.01(15)=2。羊噪声刺激前后的心率(次/分钟)羊号123456789101112131415刺激前617068738581656272847660807971刺激后757985778487887674818578888084解:(1)提出原假设与备择假设H0:噪声对羊的心率无显著影响;H1:噪声对羊的心率有显著影响。(2)计算差值并赋予符号,噪声刺激前后的差值符号列于下表。从而得n+=2,n-=13,n=2+13=15,K=min{n+,n-}=n+=2。(3)统计推断当n=15时,临界值K0.05(15)=3,K0.01(15)=2,因为K=2=K0.01(15),表明噪声刺激对羊的心率影响极显著。羊噪声刺激前后的心率(次/分钟)羊号123456789101112131415刺激前617068738581656272847660807971刺激后757985778487887674818578888084差值符号----+----+-----2.大样本情况下,正负号个数检验法的处理p=0.5例3.1.1用两套问卷测试20个管理人员的素质,两套问卷的满分都是200分。测试结果如下表所示。问:两套问卷有无显著差异(本质是两套问卷的结果的分布是否相同?)配对数据卷A147150152148155146149148151150卷B146151154147152147148146152150卷A147148147150149149152147154153卷B146146148153147146148149152150分析:依据表中的数据,计算出正负号,列于下表。“卷A-卷B”的正负号的个数卷A147150152148155146149148151150卷B146151154147152147148146152150+--++-++-0卷A147148147150149149152147154153卷B146146148153147146148149152150++--+++-++此时,正负号的总个数m=19,所要检验的参数p=0.5,m×p≈10(略小于10),还可勉强作为大样本处理。统计出此例中正号的个数n+=12。符号检验法总结符号检验法一般用于同一研究对象分别给于两种不同处理的效果比较,或,同一研究对象处理前后的效果比较。符号检验法的缺点:没有充分利用数据本身提供的信息,而且必须在数据成对时使用。如果两样本数据不成对,则可用秩和检验法。3.1.2检验两个总体的分布是否相同的第二种方法:Wilcoxon秩和检验法(序号和检验法)两组样本可以是各自独立颠倒顺序的。如果有两个以上重复的数,则取秩号平均数作为其秩。把样本个数少的这组样本(x1,x2,…,xn)的序号(秩)加总起来,记为w。秩次(rank)——将数值变量值从小到大,或等级变量值从弱到强所排列的序号。例111只大鼠存活天数:存活天数4,10,7,50,3,15,2,9,13,60,60秩次364928157101110.510.5例27名肺炎病人的治疗结果:危险程度治愈治愈死亡无效治愈有效治愈秩次1276354平均秩次2.52.5762.552.5非参数统计方法—秩和检验法(均基于秩次)秩次相同(tie)取平均秩次!!21nnT检验的具体步骤:第一步:将两个样本数据混合并由小到大进行等级排列(最小的数据秩次编为1,最大的数据秩次编为)。第二步:把容量较小的样本中各数据的等级相加,即秩和,用表示。第三步:把T值与秩和检验表中某显著性水平下的临界值相比较,如果T1TT2T≤或≥,则表明两样本差异显著。注意:若两组例数相等,则任取一组的秩和为统计量,若两组例数不等,则以样本例数较小者对应的秩和为统计量。例1请分析高中生和大学生的每周上网时间是否有差别?高中生大学生0.5837160.50.3112.21.53.52.593.510表1高中生与大学生的每周平均上网时间比较(小时/周)1.建立检验假设,确定检验水准α:H0:两个总体的分布位置相同,即高中生和大学生的每周平均上网时间的总体分布相同;H1:两个总体的分布位置不同,即高中生和大学生的每周平均上网时间的总体分布不同。α=0.05秩和检验的步骤(两个样本的容量均小于10的检验方法)高中生大学生上网时间秩次上网时间秩次0.5837160.50.3112.21.53.52.593.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.5837160.50.3112.21.53.52.593.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.5837160.50.31112.21.53.52.593.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.52837160.50.31112.21.53.52.593.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.52837160.530.31112.21.53.52.593.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.522.5837160.532.50.31112.21.53.52.593.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.522.58371460.532.50.31112.21.53.52.593.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.522.58371460.532.50.31112.21.553.52.593.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.522.58371460.532.50.31112.261.553.52.593.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.522.58371460.532.50.31112.261.553.52.5793.510n1=8n2=8表1高中生与大学生的每周平均上网时间比较(小时/周)高中生大学生上网时间秩次上网时间秩次0.522.583871460.532.50.31112.261.553.52.5793.510n1=8n2=