1第14章非参数检验单个总体分布特征的检验。即通过样本数据来检验其总体是否服从某种特定的分布。通过比较两个或多个样本的分布特征来确定两个或多个总体的分布是否有差异的检验。14.1单个总体分布特征的检验单个总体分布特征的检验是用样本的分布来检验总体是否服从某一特定的分布。14.1.1卡方检验下表是250个煤的样品中的含灰量(单位:%)的分析结果。试在显著性水平05.0下检验含灰量服从正态分布),(2N含灰量9.259.7510.2510.7511.2511.7512.2512.7513.2513.75频数1021125476含灰量14.2514.7515.2515.7516.2516.7517.2517.7518.2518.75频数13141513241519232212含灰量19.2519.7520.2520.7521.2521.7522.2522.7523.2523.75频数12768642203含灰量24.2524.7525.25频数001解:0.17ˆx127.7ˆ22s,ˆ2.6720:(17,2.67)HXN1:HX不服从正态分布以0.17ˆ为对称点,把这250个数据分为6组,(,12],(12,14],(14,17],(17,20],(20,22],(22,)若原假设成立,即2(17,2.67)XN11217(12)(1.87)1(1.87)0.0362.67pPX211(1214)(14)(12)1417(1.12)0.1002.67pPXPXPXpp31212(1417)(17)(14)1717()0.5()0.3692.67pPXPXPXpppp243(1720)0.369pPXp52(2022)0.100pPXp61(22)0.031pPXp则112500.0317.75efnpj(aj-1,aj)0jfnnjjpejfnpoeff2oeefff1-,1270.0317.75-0.750.073212,14220.10025.00-30.360314,17940.36992.251.750.033417,20950.36992.252.750.082520,22240.10025.00-10.040622,80.0317.750.250.008596.02222(1)oeeffrkf其中:r:组数k:分布的未知参数的个数815.7)3(205.0因为0.5967.815,所以不能拒绝原假设,即认为这一组数据服从正态分布2(17,2.67)XN14.1.2Kolmogorov-Smirnov单个样本检验基本思想:根据原假设利用样本的特征值构造一个期望分布的分布函数计算样本的累计频率与期望分布函数差的最大的值若这个值很大就说明这个样本不是来自期望分布的总体,则拒绝原假设。例:某校在一次考试后随机抽取了10名学生,其考试成绩如表的第二列所示。检验总体成绩是否服从正态分布。(=0.05)序号12345678910考试成绩x606566676870717280813解:=10n60+65+66+67+68+70+71+72+80+81=7010x22(66-70)++(81-70)=6.510s20:(70,6.5)HxN1:H总体不服从正态分布将样本的x值从小到大排列计算样本中每个变量出现的频次,计算累计频次计算各观察值所对应的期望分布的z值xxZs70=6.5xz查标准正态分布表可得到期望分布函数的值,也就是期望累计频率值,计算样本累计频率与期望累计频率的差值序号考试成绩频率累计频率z值期望累计频率id1600.10.1-1.540.06180.042650.10.2-0.770.2206-0.023660.10.3-0.620.26760.034670.10.4-0.460.32280.085680.10.5-0.310.37830.126700.10.60.00.50.107710.10.70.150.55960.148720.10.80.310.62170.189800.10.91.540.9382-0.0410810.111.690.95450.054计算出k个累计频率差()iiidcfFx(1in)令这个值为D,12max(,)kDddd在样本容量40n的情况下查出D的临界值如果DD就拒绝原假设。0.18D查附表6得:当=10n,=0.05时D的临界值为:0.409D因为DD。所以,接受原假设,样本来自正态分布的总体。40n时,D的临界值显著性水平0.10.050.020.01D的计算方法1.22n1.36n1.52n1.63n【例14-3】某省高考结束后,随机抽取了100名考生。数学成绩分布如表14-6中“考试成绩”与“频次”两列所示。检验总体中考生数学成绩是否服从正态分布。表14-6考生数学成绩分布考试成绩频次累计频次累计频率z值期望累计频率id34374655606368737578798083848511211111211111112456789111213141516170.010.020.040.050.060.070.080.090.110.120.130.140.150.160.17-3.03-2.91-2.55-2.19-1.99-1.87-1.67-1.48-1.40-1.28-1.24-1.20-1.08-1.04-1.000.000.000.010.010.020.030.050.070.080.100.110.120.140.150.160.010.020.030.040.040.040.030.020.030.020.020.020.010.010.0158687939496979910010210410510610710810911111211411511711812012112212312412512712812913013513613814114214715011113112111413233431222127161133432221181920212425262829303135363941444751545557596162647172787980838690939597991000.180.190.200.210.240.250.260.280.290.300.310.350.360.390.410.440.470.510.540.550.570.590.610.620.640.710.720.780.790.800.830.860.900.930.950.970.991-0.96-0.92-0.68-0.64-0.56-0.52-0.44-0.40-0.32-0.24-0.20-0.16-0.12-0.08-0.040.040.080.160.200.280.320.400.440.480.520.560.600.680.720.760.801.001.041.121.241.281.481.600.170.180.250.260.290.300.330.350.380.410.420.440.450.470.480.520.530.560.580.610.630.660.670.680.700.710.730.750.760.780.790.840.850.870.890.900.930.940.010.01-0.05-0.05-0.05-0.05-0.07-0.07-0.09-0.11-0.11-0.09-0.09-0.08-0.07-0.08-0.06-0.05-0.04-0.06-0.06-0.07-0.06-0.06-0.060.00-0.010.030.030.020.040.020.050.060.060.070.060.06解:=10n0:34+37++150=109.97100x6222(34-109.97)+(37-109.97)+(150-109.97)=25.061100s20:(109.97,25.061)HxN,0:H总体不服从正态分布。0.11D计算临界值。当=100n、=0.05,时D的临界值为:1.361.360.136100Dn因为DD。所以,接受原假设,样本来自正态分布的总体。14.2两个总体分布一致性的检验——两个独立样本的检验14.2.1、秩和检验(Mann-WhitneyU)1秩和检验的统计思想“秩”:将n个案按照变量x取值的大小进行排序,并用12n、标出每个个案的等级,这些等级被称为变量x的秩。用()Rx表示每一个个案必须占有一个等级,秩的最小值为1,最大值为n。min()1Rxmax()Rxn如果有多个个案在x变量上取值相同,这些个案被称为结,结的秩是这些取值相同的个案应该占有的所有等级的平均值。x1233345677()Rx124446789.59.5秩和检验的统计思想如果两个总体具有相同的分布,从两个总体中分别抽出两个随机样本,两个样本的分布不会有太大的差异。将两个样本的观测值混合排秩,这些秩会在两个样本的个案中交替出现。分别计算两个样本的秩和,任何一个样本的秩和非常大或非常小的可能性都是很小的。如果来自一个样本的秩和太小(或太大),就意味着这个总体的变量值比另一个总体的值偏小(或者偏大)。也就说明两个样本的个案并不是来源于两个分布相同的总体。2小样本秩和检验的方法样本1:111121,,,nxxx,7样本:221222,,,nxxx。1210,10nn。其中12nn。即始终将较小的样本视为样本1。0H:两个总体具有相同的分布1H:两个总体具有不同的分布将两样本混合后按变量值的大小排秩。然后计算样本1中所有111121,,,nxxx的秩和记为T111121()()()nTRxRxRx若1TT或2TT就拒绝两个总体具有相同的分布的原假设。例:从某校学生中随机抽取了15名学生,调查他们一周内买零食的花费,问男女学生买零食的花费有无差异?(0.05)表14-815名学生的零食消费男2159843106女51118207169解:17n28n0H:男女学生买零食的花费具有相同的分布1H:男女学生买零食的花费具有不同的分布将上述15名学生买零食花费按大小排秩,结果如表14-9所示。表14-915名学生的零食消费的秩男男男女男女男男女男女男女女女234567899101115161820顺序123456789101112131415()Rx12345678.58.5101112131415计算女性的秩和:468.51113141571.5T查附表7秩和检验表得:1241,71TT因为2TT。所以,拒绝原假设。男女两性学生的零食消费有显著差异。3大样本秩和检验的方法大样本时,2(,)TTTN8112(1)2Tnnn,21212(1)12Tnnnn标准化可得大样本秩和检验的统计量:(0,1)TTTZN检验的拒绝域为:/2zz。从某校学生中随机抽取了24名学生,考试成绩如表14-10所示。问男女两性学生的成绩有无差异?(0.05男98959087848380787773716568女9591888584828175747161解:111n,213n0H:男女两性学生的成绩无显著差异1H:男女两性学生的成绩有显著差异将男女生的考试成绩混合排秩,如表14-11所示。表中括号中的数据为秩表14-1124名学生的考试成绩的排秩女男男男女男女女男男男女成绩616568717173747577788081R(x)1234.54.56789101112女男男女女男女男女男女男成绩828384848587889091959598R(x)1