编号2010211919毕业论文(2014届本科)题目:非参数假设检验的几种检验方法及其简单应用学院:数学与统计学院专业:数学与应用数学作者姓名:罗润寿指导教师:魏瑛源职称:副教授完成日期:2014年5月20日二○一四年五月1非参数假设检验的几种检验方法及其简单应用罗润寿指导教师魏瑛源河西学院数学与应用数学专业2014届1班19号甘肃张掖734000摘要本文主要介绍了非参数假设检验的概念和非参数假设检验的几种检验方法,卡方检验、柯尔莫哥洛夫检验、秩和检验以及符号检验,并通过结合生产和生活中的实例给出了一些具体的应用.关键词样本;非参数假设检验;卡方检验;柯尔莫哥洛夫检验;秩和检验;符号检验中图分类号O212.7SeveraltestmethodsofNonparametrichypothesistestanditssimpleapplicationsLuoRunshouInstructorWeiYingyuan(No.19,Class1of2014,SpecialtyofMathematicsandAppliedMathematics,HexiUniversity,Zhangye,Gansu,734000)Abstract:Thispapermainlyintroducestheconceptofnonparametrichypothesistestingandseveralkindsoftestmethods,suchaschi-squaretest,kolmogorovtest,sumofranksinspectiontestandsymbolstest,byusingexamplesofproductionprocessandliving,somespecificapplicationsaregiven.Keywords:Sample;Nonparametrichypothesistesting;Chi-squaretest;Kolmogorovtest;sumofranksinspection;Signtest1引言非参数检验是统计学的一个重要分支,它不依赖于总体的分布,仅需要一些一般(例如连续分布,对称分布等)的假设,进行统计推断时,只利用样本观察值中一些非常直观的信息.非参数检验常用于以下四种情况:(1)待分析资料不满足参数检验所要求的假定,因而无法应用参数检验.(2)资料仅由一些等级构成,因而无法应用参数检验.(3)所提的问题中并不包含总体参数,这时也适宜采用非参数方法.(4)要迅速得出结果时采用的简单方法.非参数检验与参数检验相对应,含有丰富的统计思想,并在社会学、医学、心理学、教育学等领域都有广泛应用.2卡方检验定义1[1]非参数检验是指不需要对总体分布做任何事先的假定,也不以检验总体的参数为目的的假设检验.2定理1[2](皮尔逊定理)当随机样本容量n充分大(50n)时,将样本分成互斥的k类,每类实际出现的频数为if,而根据对总体的假设,每类应出现的理论频数(或称期望频数)为ie,则统计量221()kiiiifee近似服从自由度为1k的2分布.皮尔逊定理表明,2检验就是检验观察值与理论值之间的紧密程度.根据皮尔逊定理,检验步骤如下:(1)提出假设原假设0H:总体服从某一理论分布;备择假设1H:总体不服从某一理论分布;(2)随机抽取容量为(50)nn的样本,将样本分成k类;(3)根据分类结果确定每类的实际频数if;(4)假定原假设为真,算出每类的理论频数(5)iiee,若5ie,则将相邻几类的频数合并;(5)建立检验统计量221()kiiiifee它近似服从自由度为1kr的2分布,r为指定分布中被估计的参数的个数;(6)计算检验统计量2的值,根据给定的显著性水平做出决策.若22,则拒绝0H;反之接受0H.例1在对IT行业的工作满意度调查中,7%的信息系统管理者认为“非常满意”,58%认为“基本满意”,24%认为“不太满意”,4%认为“根本不满意”,7%认为“不确定”.而计算机程序员工作满意度样本数据由表1给出.表1计算机程序员工作满意度评价实际频数表工作评价频数工作评价频数非常满意48根本不满意16基本满意323不确定63不太满意79合计5293试判断计算机程序员工作满意度和信息系统管理者工作满意度是否相同?取0.01.解如果计算机程序员工作满意度和信息系统管理者工作满意度相同,那么计算机程序员工作满意度的概率分布就应与信息系统管理者工作满意度的分布相同.因此可提出如下假设:原假设0H:总体服从0.07,0.58,0.24,0.04,0.07ABCDEppppp分布;备择假设1H:总体不服从0.07,0.58,0.24,0.04,0.07ABCDEppppp分布;在原假设0H成立的条件下可计算出计算机程序员工作满意度评价的理论频数,见表2.计算检验统计量22221()(4837.03)(6337.03)41.69237.0337.03kiiiifee,因为0.01,220.01(1)(51)13.277k,而241.69213.277,所以拒绝原假设0H,即可以得出结论,计算机程序员的工作满意度和信息系统管理者的不相同.表2计算机程序员的工作满意度评价理论频数计算表工作评价理论频数工作评价理论频数非常满意5290.0737.07基本不满意5290.0421.16基本满意5290.58306.82不确定5290.0737.03不太满意5290.24126.96合计529定理2[3]设0()Fx为总体的理论分布,理论频率为()iipPXA,则当0H成立时,不论F是什么分布,统计量221()kiiiinnpnp当n时的极限分布为2(1)k,其中k是分组的组数.注1:(1)2定义各项中22()()iiiiiinnpnnpnppn,2()iinpn是反映了频率与概率的偏差,如果偏大应拒绝0H;若偏小可接受0H,系数inp是为了使2有一个理想的极限分布2(1)k;(2)统计量221()kiiiinnpnp的定义与样本空间S的划分有关,只有当样本空4间的划分1kiiSA取得合适时,构造的离散分布()(,2,,)iipPXAin才能较好地近似0()Fx,这其实也是2检验法的一个缺陷所在;(3)实际中遇到最多的是分布族的检验,也就是检验总体是否属于某种分布族.例2将一颗骰子掷了120次,结果如下:点数:1,2,3,4,5,6;频数:21,28,19,24,16,12;试在显著性水平0.05下检验骰子是否均匀?解检验骰子是否均匀,就是要检验假设0111:,:(1,2,6)66iiHpHpi计算得:2621()iiiinnpnp222111(21120)(28120)(19120)666111120120120666222111(24120)(16120)(12120)6668.1111120120120666.对0.05,6k,220.95(61)11.0718.1,故接受假设0H,即认为这颗骰子是均匀.注2:在用定理2计算统计量时,必须满足:(1)n一定要够大,最好达到50n;(2)每inp不能太小,最好达到5inp,否则应适当合并iA以满足要求.3符号检验符号检验是利用正、负号的数目对某种假设作出判断的方法.它直观、简单,不需要知道被检验量的分布规律,用途十分广泛.在实际应用中,它分为单样本和两个样本的符号检验.在这里,只介绍两个相关样本的符号检验.两个相关样本的符号检验是通过对比样本的成对数据来确定正负号,根据正负号的数目的对比来判断两个样本有无显著差异.定理3[4]设P是正号出现的概率,P是负号出现的概率;若两样本无显著差异,则正负号出现的概率应该相等.原假设0:HPP;备择假设1:HPP.5两个样本数据分别12(,,,)nxxx和12(,,,)nyyy,比较成对数据,首先去掉观察值相同的样本对;若iixy,差值为正记为“+”,若iixy,差值为负记为“-”,正号和负号的数量分别为n和n,正负号之和是样本容量n,即nnn.在小样本情况下(20)n统计量为0122nkiniPC,min,knn(1)在大样本情况下(20)n,若原假设为真,则二项分布可近似服从于正态分布(0,1)N,检验统计量为0.522nkZn(2)在小样本情况下(20)n,若P值,则拒绝原假设;在大样本情况下(20)n,若2ZZ,则拒绝原假设.符号检验仅利用了符号的信息,并没有考虑数据大小,因而精确度不高.例3某公司目前招聘一名广告市场分析的研究员,共有20名应聘者前来应聘,客户部经理和市场部经理给这20名应聘者的面试分数由表3给出,试分析客户部经理和市场部经理的评价标准是否一致(0.05).解该问题可以用符号检验的方法进行处理,根据题意提出假设:原假设0:HPP,即客户部经理和市场部经理的评价标准一致;备择假设1:HPP,即客户部经理和市场部经理的评价标准不一致.根据已知表的数据,计算样本对差值的符号,结果由表4给出.根据表4中的样本数据得,10n,8n,18n.由于1820n,所以属于小样本情况,根据公式(1)得min,min8,108knn,188180011220.81522nkiiniiPCC.显著性水平0.05,0.815P,故接受原假设,即认为两个经理的评价标准一致.6表3应聘者得分统计表应聘者客户部经理市场部经理应聘者客户部经理市场部经理123456789109087739967956485918390888695898064908980111213141516171819208084916781916573928682797060909070649585表4样本对观察值的差值的符号应聘者客户部经理市场部经理符号应聘者客户部经理市场部经理符号1234567891090877399679564859183908886958980649089800--+-+0-++111213141516171819208084916781916573928682797060909070649585-+++-+-+-+例4某公司采用广告销售,随即选取30个城市,得到广告促销前后的销售额的样本数据,如表5所示(单位:万元).试用符号检验分析促销活动的效果(0.05).解根据题意提出假设为:原假设0:HPP,即认为广告前后销售额无显著差异;备择假设1:HPP,即认为广告前后销售额有显著差异.根据表5中的数据得,7n,18n,25n.min,min7,187knn,统计量Z的观察值7250.570.52222522nkZn.显著水平0.05,查表得到21.96Z,而221.96ZZ,所以拒绝原假设,即认为广告前后销售额有显著差异,广告有助于促销.表5广告促销前后销售额的比较表城市广告前广告后符号城市广告前广告后符号12345678910111213141542583847505749633644535683944406038495157476539425358504143+-0--0+--+0---+161718192021222324252627282930475348546275505183345158276653495048576677505285374861336753-+0---0---+---+4柯尔莫哥洛夫检验与2检验