常用非参数统计方法上饶师范学院[摘要]本文就非参数统计分析其适用情形与优缺点,并详细介绍几种非参数统计的方法并有案例分析。[关键词]两样本比较多样本比较秩和检验在统计学中,最基本的概念是总体、样本、随机变量、分布、估计和假设检验等,其中很大一部分食与正态理论相关的。在我们已经学过的知识里,总体的分布形式往往是给定的或已经假定了的,我们只需要在总体分布已知的基础上对参数进行估值或者进行检验。但是实际上,对总体的分布的假定并不是能随便做出的,数据可能并不是来自假定的总体分布,或者根本不是来自同一个总体。在这种假定下进行推断就可能产生错误的结论。于是,人们希望能在不假定总体分布的情况下,尽量从数据本身来获得所需的信息,这就是非参数统计的宗旨。在统计学的方法中,非参数方法只是在具体情况下更适用、更准确完整表示数据的信息。接下来,我将就非参数统计分析其适用情形与优缺点,并详细介绍几种非参数统计的方法并有案例分析。非参数统计(nonparametricstatistics)不依赖总体分布类型,不对参数进行估计或检验,通过样本观察值推断总体分布位置是否相同非参数检验又称任意分布检验(distribution-freetest)优点:资料分布特征要求较低,适用范围广,收集资料方便;对不满足参数方法的资料,效率高。缺点:宜用参数方法的资料,若用非参数法处理,没有充分利用资料提供的信息,导致检验效能下降。秩和检验(ranksumtest)1.秩(rank):观察值从小到大排序,该序号在统计学上称为秩/秩次;2.秩和:秩次求和得到;3.秩和检验:用秩和进行假设检验的方法。适宜作非参数检验的资料1.计量资料,总体偏离正态性或总体分布未知2.等级资料:痊愈、显效、有效、无效;-、±、+、++、+++;心功能分级;烧伤程度…3.边界不确定的资料:如出现50mg或0.5mg以下两样本比较秩和检验例测得铅作业与非铅作业工人的血铅值(μmol/L),问两组工人的血铅值有无差别?表10.1两组工人的血铅值(μmol/L)铅作业组(1)秩次(2)非铅作业组(3)秩次(4)0.8290.2410.8710.50.2420.97120.2931.21140.3341.64150.4452.08160.5862.13170.6370.7280.8710.51.0113n1=7T1=93.5n2=10T2=59.5其中SPSS软件检验正态性与方差齐性结果一、建立检验假设,确定检验水准H0:铅作业与非铅作业工人血铅值分布的位置相同,H1:铅作业与非铅作业工人血铅值分布的位置不同。α=0.05二丶计算检验统计量T值混合编秩0.240.240.290.330.440.580.630.720.820.870.870.971.011.211.642.082.13遇有原始数据相同时,可分两种情况处理:①相同数据在同一组,其秩次按位置的顺序。②相同数据分在两组,均取其平均秩次(10+11)/2=10.5。两组秩次分别相加T1=93.5T2=59.5取较小样本的秩和记为统计量T,本例n1=7,n2=10,取T=T1=93.5两组合计的秩和为多少?三、确定P值和作出推断结论查附表12,n1=7,n2-n1=10-7=3,原则:内大外小双侧0.0542-84按α=0.05水准,拒绝H0,接受H1,故认为铅作业工人比非铅作业工人血铅值高。多个样本比较的秩和检验多个组资料:1有序分类资料2定量资料,但其不满足正态性或方差齐性H检验(Kruskal-Wallis法)例10.3在研究白血病时,测得鼠脾的DNA含量如表10.3第(1)、(3)、(5)、(7)栏。问不同病情的鼠脾DNA含量有无差别?一、建立假设检验,确定检验水准H0:四种鼠脾DNA含量总体分布位置相同。H1:四种鼠脾DNA含量总体分布位置不同或不全同。α=0.05二、计算检验统计量混合编秩:由小到大排列,统一编秩相同值:同组顺序编号,不同组取平均秩次。计算各组秩和Ri(i=1,2,3,4)计算统计量H值三、确定P值,作出统计推断K=4,ni5,H20.05(3),即P,因此拒绝H0,接受H1认为四种鼠脾DNA含量总体分布位置不同或不全同。K=3,ni=5,附表13;K3,最小样本例数=5,H近似服从自由度为k-1的卡方分布,2界值表。[参考文献]孙金芳非参数统计方法王星,非参数统计,中国人民大学大学出版社李隆章,实用非参数统计方法,中国财政经济出版社