第一章非参数统计分析.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二篇非参数统计参考书《非参数统计》中国统计出版社吴喜之《非参数统计》人民大学出版社王星《非参数统计讲义》北京大学出版社孙山泽非参数统计狭义非参数统计非参数计量经济学非参数模型半参数模型估计总体的分布函数是否等于已知的分布检验两或以上个总体的分布是否相同,通常是检验其中位数是否相等估计总体的密度函数的曲线,但是不能写出解释式第一章非参数统计及一些概念教学中使用的软件SPSS和R。SPSS的非参数统计菜单已经比较全面了。SPSS非参数检验的过程1.Chi-Squaretest卡方检验(检验总体是否服从某个给定的离散分布)2.Binomialtest二项分布检验(检验总体是否服从二项分布)3.Runstest游程检验(检验样本序列是否随机)4.1-SampleKolmogorov-Smirnovtest一个样本柯尔莫哥洛夫-斯米诺夫检验(检验总体是否服从某个连续分布)5.2independentSamplesTest两个独立样本检验(检验两个独立总体差异性)6.KindependentSamplesTestK个独立样本检验(检验k个独立总体的差异性)7.2relatedSamplesTest两个相关样本检验(检验两个相关总体差异性)8.KrelatedSamplesTestK个相关样本检验(检验k个相关总体差异性)思考的要点什么是计数统计量;什么是秩统计量,为什么要讨论秩;为什么要讨论秩的分布、秩的期望和方差;什么是符号秩和线性符号秩;线性符号秩的期望和方差。第一节关于非参数统计在参数统计学中,最基本的概念是总体、样本、随机变量、概率分布、估计和假设检验等。其很大一部分内容是建立在正态分布相关的理论基础之上的。总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值。于是,分析人员的就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等。最常见的检验为对正态总体的t—检验、F—检验和极大似然比检验等。又比如,线性回归分析中,需要估计回归系数j,j称为参数,所以线性回归分析应该属于参数统计的范畴。然而,在实际生活中,那种对总体分布的假定并不是能随便做出的。有时,数据并不是来自所假定分布的总体。或者数据根本不是来自一个总体,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。因为非参数统计方法不利用关于总体分布的相关信息,所以,就是在对于总体分布的任何信息都没有的情况下,它也能很容易而又较为可靠地获得结论。这时非参数方法往往优于参数方法。在台湾这种方法称为“无母数统计”,即不知到总体信息的统计方法。在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据最基本的信息就是次序。如果可以把数据按大小次序排队,每一个具体数目都有它在整个数据中(从最小的数起)的位置或次序,称为该数据的秩(rank)。数据有多少个观察值,就有多少个秩。在一定的假定下,这些秩和秩的统计量的分布是求得出来的,而且和原来的总体分布无关。这样就可以进行所需要的统计推断。注意:非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关数值参数(均值和方差等);它被称为和分布无关(distribution—free),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关。【例1】在我国的工业和商业企业中随机抽取22家企业进行资产负债率行业差异分析,其某年底的资产负债率(%)如下:工业647655825982707561647383商业77808065939184918486两个行业的负债水平是否有显著性差异a=0.05。这样的数据中有两个问题:其一是样本容量不大;其二是总体服从何种分布未知。下面我们来构造一种检验的方法,看他们的资产负债有无显著性差异。将两类企业的资产负债混合排序,并给出其序次,这在统计中称为“秩”。在这张表中我们有两个可用的信息。负债率5559616464657073757677秩1234567891011组别11111211112负债率8080828283848486919193秩1213141516171819202122组别22111222222如果我们将12家工业企业的秩相加是94,其平均秩是7.88,将10家商业企业的秩相加得159,其平均秩为15.9,这就给我们一个可以考虑的信息,两种企业的资产负债是有差异的。他们的平均秩不同。另一个想法是好像工业排的顺序相对靠前,有11111,2,1111,222,111,222222共有6段(相同特点的个案的一段称为游程)。如果原假设成立,则两个行业的负债水平的分布使相同的,将其混合后,应能较为充分、均匀地混合,游程数R应该比较大,反之当游程数R较小,则说明两个总体的分布可能不同。那么6这个游程数是大还是小呢?【例2】模拟一个污染的正态分布,计算其样本均值,但是样本均值非正态分布了。这个分布是以0.8的概率是标准正态分布,0.2的概率混进方差为9的正态分布。workfileu11000Seriesjunzhifor!i=1to1000smpl120seriesy1=rndseriesy2=nrndsmplify10.8Genra=y2smplify1=0.8Genra=9*y2smpl120scalarmean=@mean(a)junzhi(!i)=meannextsmpl11000junzhi.hist020406080100120-3-2-10123Series:JUNZHISample11000Observations1000Mean0.011014Median0.034733Maximum3.263554Minimum-3.207570Std.Dev.0.928736Skewness-0.043640Kurtosis3.458105Jarque-Bera9.061568Probability0.010772此数据的正态性检验是非正态。非参数统计归纳起来有如下的几点:1.对总体的假定少;2.可以处理许多有问题数据,比如污染的正态分布,有奇异值的情形;3.容易计算,当然如果不去证明统计量渐近分布。4.在使用时,最好与参数统计分析方法结合应用,以便相互验证结果的可靠性。第二节计数统计量设是一个随机变量,对于一个给定的常数0,定义随机变量0(0)XΨ10()00tttψ称随机变量为X按0分段的计数统计量。即满足括号里的条件得1,否则得0。一、计数统计量最常用的计数统计量为1niiB符号检验。设随机变量X1,…,Xn是从某个总体X中抽出的简单随机样本。且分布函数F(X)在X=0是连续的。检验0是其中位数。0:(0HF1)=21:(0HF1)2检验的统计量可以取011(0)nniiiiBx二、计数统计量的应用在原假设为真的条件下,B服从参数为n和0.5的二项分布b(n,0.5)。由于原假设为时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。例生产过程是否需要调整。某企业生产一种钢管,规定长度的中位数是l0米。现随机地:从正在生产的生产线上选取10根进行测量,结果:9.8,10.1,9.7,9.9,9.8,10.0,9.7,10.0,9.9,9.8分析:中位数是这个问题中所关心的一个位置参数。若产品长度真正的中位数大于或小于10米,则生产过程需要调整。这是一个双侧检验,应建立假设为了对假设作出判定,先要得到检验统计量或。将调查得到数据分别与10比较,算出各个符号的数目:=1,=7,n=8。P值=0.0214小于显著性水平0.05。表明调查数据支持备择假设。即生产过程需要调整。10::10:10MHMHSSSS2(1)20.0107PS有人说我国国有经济单位15个行业的某年职工平均工资的中位数为7000元。现从15个行业中抽出样本,如下表所示。40384940579861616344661066956709--------6769699278977987854686798701--+++++在显著性水平a=0.05下,我国国有经济单位15个行业的1996年职工平均工资的中位数为7000元吗?5S因为,,故接受原假设。05.01508.0)5(SP7000:;7000:10MHMH第二节秩统计量设来自总体X的样本,记为样本点的秩,即iRiX1(0)niijjRXX1(0)0ijijijXXXXXXRi为大于等于的次数。iXjX一、秩统计量1,,nXXXi5.61.42.75.22.64.82.3X(i)1.42.32.62.74.85.25.6Ri1234567331()njjRXX1(2.7)4njjX二、秩统计量的分布和数字特征的联合分布为:nRRR,,,21!1),,,(21niiipnR的概率分布为iR),,4,3,2,1(1)(nrnrRpiRi的数学期望ninREi,,2,121)(11()niiERin11niin1(1)122nnnnRi的方差:ninnRVari,,2,112)1)(1()(22()()()iiiVarRERER221112ninin21(1)(21)162nnnnn(1)(1)12nnRi和Rj的协方差由于211110222nniijnnniij211()2nini所以21111222nnijinnniji(,)ijCovRR111(1)22nijnnijnn2111(1)2nininn1(1)(1)1(1)1212nnnn一、绝对秩和符号秩设随机变量X1,X2,…,Xn独立同分布,分布函数F(x)连续,关于y轴为对称。随机变量|X1|,|X2|,…,|Xn|对应的秩向量记为1,,nRRiR称为Xi的绝对秩iiR称为Xi的符号绝对秩第四节线性符号秩统计量(0)iiX000iiiiiXRRX若X是连续的随机变量,分布关于Y轴为对称,则随机变量|X|与计数统计量(x)相互独立。事实上,对于t0,i=1或i=0,显然有((),||)pXiXt(())(||)(())00pXipXtpXi对于t0,有(()1,||)(0,||)pXXtpXXt(0)pXt因为,x关于0为对称,则(0)pXt原式11(0)(0)22pXtptX根据随机变量独立的充分必要条件,可知二者是独立的,同理可证1()2pXt(()1)()pXpXt(()1)()pXpXt(()0,||)pXXt在结论下,我们有如下结论。设随机变量X1,X2,…,Xn相互独立同分布,分布函数F(x)连续,关于y轴为对称。其绝对秩向量1,,nRR计数统计量1,,nΨΨ二者相互独立。二、符号秩统计量扩展若随机变量X1,X2,…,Xn相互独立且同连续的分布,分布关于轴为对称。其对应的符号秩1122,,,nnRRRWilcoxon符号秩统计量1niiiWRΨ1(1)1()224iinnnEREERiiΨΨ1(1)()()4niinnEWERiΨ2()(()()iiiVarREREERiii2((

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功