第九章非参数统计初步•卡方检验•单个总体的位置检验:符号检验•两个总体的比较•多个总体的比较•其他非参数统计方法§9.1卡方检验•卡方检验•泊松分布拟合优度检验•正态分布拟合优度检验•列联表独立性检验拟合优度检验是2检验的应用,可以用它来检验样本内每一类别的实际观察数目与某种条件下的理论期望数目是否有显著差异,可用于分布的检验、独立性检验等。2检验能够检验观察到的频率分布是否服从于某种理论上的分布,或者说检验某一实际的随机变量与某一理论分布之间的差异是否显著。若被检验总体的真实的分布函数为F(x),但它是未知的。现在根据这一总体中所随机抽取的一组样本来检验总体是否与某种已知的理论分布F*(x)相一致。即下列假设检验问题:任意取k-1个实数使得-∞a1a2a3„ak-1+∞,把(-∞,+∞)分成k个互不相交的区间:(-∞,a1),(a1,a2)„,(ak-1,+∞)。以f1表示样本观察值落在区间(-∞,a1)内的个数,以fi表示样本观察值落在区间(ai-1,ai)内的个数,以fk表示样本观察值落在区间(ak-1,+∞)内的个数(一般要求k5,fi≥5)0:()()HFxFx1:()()HFxFx另一方面,对于已知的分布函数F*(x),对应与下列的每一个区间(-∞,a1),(a1,a2)„,(ak-1,+∞)都会有一定的分布特性,我们也可记*111**21321**11*11()()()()()()()(),(2,3,,1)()1()iiiiikkkPpxaFaPpaxaFaFaPpaxaFaFaikPpaxFa≤≤≤式中,这里Pi表示服从于已知的分布函数F*(x)的总体X在每个区间(ai-1,ai)上的概率。在计算得到fi和Pi(i=1,2…k-1,k)以后,计算统计量为221()kiiiifnPnP这一统计量服从于自由度为k-1的2分布用2检验进行拟合优度检验的一般过程如下:下面结合几个具体的分布例子着重讲解几个典型的拟合优度检验(1)对总体分布建立假设(2)抽样并对样本资料编成频数分布(f0)(3)以“原假设为真”导出一组期望频数(fe)(4)计算检验统计量(5)确定自由度,查2表得到临界值(6)比较2值与临界值,作出检验判断220()/eefff一、多项总体拟合优度检验多项总体:总体中的每个个体被分配到几个类别中的一个,且仅被分配到一个类别中。多项总体分布是二项分布的推广按照上面用检验进行拟合优度检验的一般原理,多项总体拟合优度检验步骤如下:(1)建立零假设和对立假设H0:总体服从其中所有k类中每类都有指定的概率的多项概率分布。H1:总体不服从其中所有k类中每类都有指定的概率的多项概率分布(3)以“原假设为真”导出一组期望频数ei(5)当原假设成立且所有种类的期望频数均大于或等于5时,则检验统计量服从自由度为k-1的2分布(6)判断法则:如果2α2,则拒绝H0;如果2α2,则不能拒绝H0221()kiiiifee(4)用观察频数和期望频数构造检验统计量(2)选择随机样本,记录每个种类的观察频数fi例9-1设有三家生产相同产品的工厂,在过去的一年中,A工厂的市场份额稳定于30%,B工厂为50%,C工厂为20%。为了提高市场份额,C工厂新开发了一种改良产品并且已经投入市场。C工厂希望判断新产品是否使市场份额发生了改变。解:由本例中待检验总体是一个多项总体,每个顾客按照他购买哪个工厂生产的产品来分类。记pi为工厂i所占的市场份额①假定C工厂的新产品不会改变市场份额,建立如下零假设和对立=假设H0:pA=0.3,pB=0.5,pC=0.2H1:总体比例不是pA=0.3,pB=0.5,pC=0.2如果样本结果导致拒绝,则表明新产品的引进对市场份额有影响②假定C工厂用一组200个顾客的群体进行研究,向每个人询问他们关于三个工厂生产产品的购买偏好,结果汇总如表9-1所示③现在进行拟合优度检验,计算200名顾客的购买偏好的期望,结果如表9-2所示期望频数A工厂的产品B工厂的产品C工厂的产品0.30=600.50=1000.20=40表9-1200名顾客购买偏好的观察频数观察频数A工厂的产品B工厂的产品C工厂的产品489854④2检验统计量的计算过程如表9-3所示表9-3检验统计量的计算过程7.34——2002001.00总计4.901961440540.20C工厂0.044-2100980.50B工厂2.40144-1260480.30A工厂假设比例类别2()iife2()/iiifee()iifeieif⑤2检验统在显著性水平α=0.05下,查2分布表,自由度为k-1=3-1=2,相应的20.05=5.99,有2=7.442α所以拒绝H0,认为C工厂引进的新产品将改变当前市场份额二、泊松分布拟合优度检验泊松分布拟合优度检验:这里我们在假定总体分布服从泊松分布的情况下,阐述利用统计量来进行拟合优度检验。注意,泊松分布只有一个参数,如果参数未知,则需要事先通过收集的样本资料对其进行估计。例9-2某从1500—1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如表9-4所示,其中X表示战争次数,N表示发生X次战争的年数。表9-4每年爆发战争次数XN0223114224831544下面我们来检验每年爆发战争次数的分布是否是泊松分布:解:①提出假设H0:X服从参数为λ的泊松分布;H1:X不服从参数为λ的泊松分布②根据观察结果得参数λ的极大似然估计为=0.69。ˆX③按参数为0.69的分布,计算事件X=i的概率pi,pi的估计是,i=1,2,3,4计算结果如表9-5所示0.69ˆe0.69/!iipi表9-5检验统计量的计算过程X01234合计223142481540.580.310.180.010.02—216.7149.551.612.02.16—0.1830.3760.2511.6232.43ifˆipˆinp2ˆˆ()/iiifnpnp其中,将的组予以合并,即将发生3次及4次战争的组归并为一组ˆ5inp④因H0所假设的理论分布中有一个未知参数,故自由度为k-r-1=4-1-1=2⑤取α=0.05,查2分布表得20.05=5.99,由于统计量2的实测值2=2.435.99未落入否定域,故接受原假设,认为每年发生战争的次数X服从参数为0.69的泊松分布三、正态分布拟合优度检验正态分布拟合优度检验:正态分布是连续型分布,其拟合优度检验的步骤与前面介绍的多项分布与泊松分布的拟合优度检验步骤类似,只不过必须要对观察资料进行区间式分组,然后确定每组的期望频数和观测频数其基本步骤如下:(1)建立零假设和备择假设H0:总体服从正态分布;H1:总体不服从正态分布(2)抽取一个随机样本,并且进行以下操作①计算样本均值和样本标准差②确定取值区间并使得每个区间中的期望频数至少为5③对于每个确定好的区间记录观察频数(3)对于步骤(2)的②中确定的每个区间,计算发生次数的期望频数,即样本容量与正态随机变量落入每个区间的概率的乘积(5)拒绝法则:如果22α(k-3),则拒绝H0;如果22α(k-3),则不能拒绝H0。其中,α为显著性水平,自由度为k-3221()kiiiifnpnp(4)计算检验统计量:例9-3试对表9-6所给男青年身高分布的数据作正态拟合检验,取α=0.05,表9-6检验统计量的计算过程分组距离/cm148~15210.0060.60.40.160.2667152~15620.0212.1-0.10.010.0048156~16050.0575.7-0.70.490.0860160~164100.11811.8-1.83.240.2746164~168190.17917.91.11.210.0676168~172250.21021.04.016.000.7619172~176170.18618.6-1.62.560.1376176~180120.12512.5-0.50.250.0200180~18450.0646.4-1.41.960.3063184~18830.0252.50.50.250.1000188~19200.0070.7-0.70.490.7000192~19610.0020.20.80.643.2000合计1001.000100.0——5.9255解:①建立原假设与备择假设H0:男青年身高分布服从N(,2);H1:男青年身高分布不服从N(,2);x②因为总体参数、2均未知,须以样本平均数和样本方差s2作为它们的估计量。易算得,170.28x256.7s③若H0成立,则总体分布在各组区间上的概率P1可以通过下面的过程求得:1(148152)148170.28152170.287.537.53(2.962.43)0.4490.4930.006PPXPzPz≤≤≤≤≤④同理,可以求得P2=0.021,P3=0.057,P4=0.018,P5=0.179,P6=0.21,P7=0.186,P8=0.125,P9=0.064,P10=0.025,P11=0.007,P12=0.002⑤检验统计量,例中共12组数据,根据样本的频数分布资料拟合总体的正态分布时,在单位总数、均值、标准差方面存在着三个固定关系,即受到三个条件的约束,故损失了三个自由度,因此自由度n-k=12-3=9,查2分布表得临界值。故接受原假设,即不能否定样本资料来自正态总体。220()5.93eefff20.05(9)16.9195.93可仿照上述二项分布、泊松分布及正态分布的方法进行其他分布的拟合优度检验。另外,具体检验时分组不同,拟合的结果可能不同。检验时需要足够的样本容量才能保证检验的效果四、列联表独立性检验列联表独立性检验:列联表是关于两个或两个以上变量进行交叉分类的频数分布表。2检验还可以用来检验列联表两变量间的独立性。此时,零假设一般设为两个变量之间相互独立。并且独立性检验一般都采用表格的形式来显示观察结果,所以独立性检验也称为列联表分析检验对象只有两个因素而且每个因素只有两项分类的列联表称为2×2列联表或四格表,一个因素有R类,另一个因素有C类的列联表称为R×C表列联表的一般形式如表9-7所示表9-7列联表形式(R×C)表9-7表9-7中,Orc为实际观察结果,fc1,fc2,fc3…,fcc分别表示第1,2,3,…,c列的列合计,fr1,fr2,fr3…,frr分别表示第1,2,3…,r行的行合计列联表独立性检验具体步骤如下:(1)提出假设H0:两个变量是独立的,即相互之间没有影响;H1:两个变量是不独立的,即相互之间有影响理论值Eij是根据独立事件的概率原理计算的,当总的实验次数为时,与观察值Oij相对应的理论值Eij可按下式计算得到:22()ijijijOEE(2)计算检验统计量,定义式中,Oij是观察结果数;Eij是与Oij位置相应的理论值jijiijOOOOEnnnn观察值与期望值完全相等,则2=0,表示上述两个因素是完全独立的。(3)2检验在计算2值时,由于各行各列的总合计数已经确定,因此自由度为(行数-1)×(列数-1)。若原观察数据中的第一个变量分为r类,第二个变量分为c类,则的2自由度就是(r-1)×(c-1)。当取显著性水平为α时,查找相应的表就可得到临界值,当221-α[(r-1)×(c-1)]时就拒绝原假设,否则就接受原假设当值大到一定程度时,就说明两个因素的交互影响不可忽视,不能够认为独立。下面我们从样本的不同情况出发,分别介绍相应的检验方法。式中,a,b,c,d分别是四格表内的数(一)独立样本独立样本四格表的独立性检验,既可以用