第6章非参数检验在SPSS统计软件中所提供的非参数统计方法,有以下几种。卡方检验,用于检验二项或多项分类变量的分布。二项分布检验,用于检验二项分类变量分布。游程检验,用于检验样本序列随机性。单样本Kolmogorov-Simimov检验,用于检验样本是否服从各种常用分布。两个独立样本检验,用于分组数据分布位置的检验。多独立样本检验,用于分组数据分布位置的检验。两个配对样本检验,用于配对数据分布位置的检验。多配对样本检验,用于配对数据分布位置的检验。6.1卡方检验卡方检验是一种极为典型的对总体分布进行检验的非参数检验方法,也称为卡方拟合优度检验,用于检验数据是否与某种概率分布的理论数字相吻合,进而推断样本数据是否来自该分布的问题。6.1.1卡方检验的原理6.1.2卡方检验的SPSS操作详解6.1.3课堂练习:小白鼠试验数据验证6.1.1卡方检验的原理1.卡方检验基本介绍在很多问题中,研究者感兴趣的往往是受试者、实验对象或实验反响划入各类别的数目。例如,研究者可以用Rorschach测验(Rorschach测验是让受试者解释10张墨水点画以测验个性的方法)对一组病人的个性进行分类,以便预言某些类型将比其他类型更常见;又如,按照孩子们最常玩的游戏方式对他们进行分类,以检验这些游戏方式流行程度不同的假设;还可以按照人们对某种主张的反响是赞成、弃权或反对而进行分类,以便让研究者检验这种假设:对该主张的各种反响程度是不同的。2.卡方检验的基本思想卡方检验的基本思想的理论依据是:如果从一个随机变量X中随机抽取若干个观察样本,这些样本落在X的k个互不相交的子集中的观察频率服从一个多项分布,当k趋于无穷大时,这个多项分布近似服从卡方分布。卡方检验的零假设为:总体X服从某种分布,这里的样本认为是来自总体X。6.1.2卡方检验的SPSS操作详解选择菜单栏中的【分析】∣【非参数检验】∣【旧对话框】∣【卡方】命令,弹出如下图所示对话框,这是卡方检验的主操作窗口。在【卡方】对话框左侧的候选变量列表框中选择变量将其添加至【检验变量列表】列表框中,表示需要进行卡方检验分析的变量。6.1.3课堂练习:小白鼠试验数据验证1.实例内容下图给出了某毒理实验对60只怀孕小白鼠进行显性致死性实验结果,有研究报道胚胎死亡数服从负二项分布,表中给出了根据负二项分布求得的期望频数分布,试据此用方卡检验验证以往报道的正确性。6.1.3课堂练习:小白鼠试验数据验证2.实例操作选择菜单栏中的【数据】∣【个案加权】,弹出如下图所示【个案加权】对话框。选择【个案加权】,将观察频数添加至频数变量框中。选择菜单栏中的【分析】∣【非参数检验】∣【旧对话框】∣【卡方】命令,弹出如下图所示对话框。6.1.3课堂练习:小白鼠试验数据验证3.实例结果及分析1)描述性统计量从下图所示为描述性统计量的结果,主要给出例数、均值、标准差、极大值和极小值以及百分位数。2)卡方检验频数表从下图中可以看出各类别的观察数、期望数和残差结果。3)卡方检验统计表从下图中可以发现:卡方值是0.081,自由度是3,渐近显著性水平为0.994,不拒绝零假设,即胚胎死亡数符合二项分布。6.2二项检验实际情况下,很多数据的取值是二值的,一般采用0和1来表示两个取值。通常,这种二值情况称为二项分布,SPSS中的二项分布检验过程(BinomialTestsProcedure)正是通过样本数据检验样本来自总体是否服从指定概率为P的二项分布。6.2.1二项检验的原理6.2.2二项检验的SPSS操作详解6.2.3课堂练习:研究糖尿病患病率高低6.2.1二项检验的原理1.基本概念二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为p的二项分布,其零假设H0是:样本来自的总体与指定的二项分布无显著性差异。2.统计原理二项分布检验在样本小于等于30时,按下式计算概率值:在大样本的情况下,计算的是Z统计量,认为在零假设下,Z统计量服从正态分布,其计算公式如下:当x小于n/2时,取加号;反之取减号,p为检验概率,n为样本总数。3.分析步骤二项分布检验亦是假设检验问题,检验步骤同前。SPSS会自动计算上述精确概率和近似概率值。如果概率值小于显著性水平,则拒绝零假设,认为样本来自的总体与指定的二项分布有显著差异,反之样本来自的总体与指定的二项分布无显著差异。1{}xiininiPXxCpq0.5(1)xnpZnpp6.2.2二项检验的SPSS操作详解选择菜单栏中的【分析】∣【非参数检验】∣【旧对话框】∣【二项式】命令,弹出【二项式】对话框,如下图所示。这是二项检验分析的主操作窗口。在【二项检验】对话框的候选变量列表框中选择一个或几个变量,将其添加至【检验变量列表】列表框中,选择的变量就是要进行二项式分析的观测变量。6.2.3课堂练习:研究糖尿病患病率高低1.实例内容最新医学研究表明,目前我国20岁以上成人糖尿病患病率达10%。图6.16给出了随机抽取的200名山东省某地区20岁以上成人的糖尿病患病情况。试用二项分布检验方法研究该地区20岁以上成人糖尿病患病率是否低于一般概率。6.2.3课堂练习:研究糖尿病患病率高低2.实例操作选择菜单栏中的【分析】∣【非参数检验】∣【旧对话框】∣【二项式】命令,弹出【二项式】对话框,如下图所示。在该对话框左侧的候选变量列表框中选择“患病情况”,将其添加至【检验变量列表】列表框中。6.2.3课堂练习:研究糖尿病患病率高低3.实例结果及分析1)数据基本统计量表从下图中可以读出以下信息:接受检验的样本共200个,样本均值是0.04,标准差是0.184,极小值是0,极大值是1。2)二项分布检验结果从表6.6中可以发现,患病组的样本个数是7,观测的概率值是0.0,期望概率值是0.1,不患病组的样本个数是193,观测的概率值是1.0,渐进显著性水平单侧检验结果为0.0000,所以可以认为该地区20岁以上成人糖尿病患病率低于一般概率。6.3游程检验游程检验是对二分类变量的随机检验,主要用于推断数据序列中两类数据的发生过程是否随机,如临床试验所关心的病例入组顺序是否随机。许多统计学检验是假设样本中的观察值都是独立的,即收集到的数据样本的顺序是不相关的。如果数据的收集顺序十分重要,那么样本就可能不是随机的,这将使研究者不能得出关于抽样总体的准确结论。6.3.1游程检验的原理6.3.2游程检验的SPSS操作详解6.3.3课堂练习:运动员状态稳定性判断6.3.1游程检验的原理1.游程(总个数)检验给定显著性水平,检验的拒绝域为。当m≤n≤20时,临界值可以查表得到。这个检验称为游程(总个数)检验。2.游程(最大长度)检验给定显著性水平,检验的拒绝域为,当时,临界值可以查表得到。这个检验称为游程(最大长度)检验。NNUcNc20mnLcLLUc6.3.2游程检验的SPSS操作详解选择菜单栏中的【分析】∣【非参数检验】∣【游程】命令,弹出【游程】对话框,如下图所示。这是游程检验分析的主操作窗口。在【游程检验】对话框的候选变量列表框中选择要进行游程检验的变量,将其添加至【检验变量列表】列表框中,选择的变量就是要进行分析的观测变量。6.3.3课堂练习:运动员状态稳定性判断1.实例内容某足球俱乐部想要引进一名优秀的前锋运动员以增强前场攻击力。下图给出了一名目标球员连续30场比赛进球数据。试用游程检验方法研究该球员状态,判断其发挥是否稳定。6.3.3课堂练习:运动员状态稳定性判断2.实例操作选择菜单栏中的【分析】∣【非参数检验】∣【旧对话框】∣【游程】命令,弹出如下图所示对话框。在【游程检验】对话框左侧的候选变量列表框中选择“进球数”,将其添加至【检验变量列表】列表框中。6.3.3课堂练习:运动员状态稳定性判断3.实例结果及分析1)描述性统计量表从下图中可以读出以下信息:参与检验的样本共30个,样本均值是0.77,标准差是1.223,极小值是0,极大值是4。2)游程检验结果表从下图可以看出:检验的计算点值(本例中即中位数)是69,小于试算点值的样本有18个,大于试算点值的样本有12个,总个数为30,游程数是7,Z统计量是-3.063,渐近显著性水平为0.002,远小于0.05。所以,拒绝样本随机性假设,该球员的状态发挥非常不稳定,在引进该球员时要慎重考虑。6.4单样本K-S检验K-S检验是柯尔莫戈洛夫-斯米诺夫(Kolmogorov-Smirnov)检验的简称,是以俄罗斯数学家柯尔莫戈洛夫和斯米诺夫的名字命名的一种非参数检验,该检验是一种拟合优度检验,可以利用样本数据推断样本来自的总体是否服从某一理论分布。该检验涉及一组样本值(观察结果)的分布和某一指定的理论分布之间的符合程度问题,可以确定是否有理由认为样本的观察结果来自具有该理论分布的总体。6.4.1单样本K-S检验的原理6.4.2单样本K-S检验的SPSS操作详解6.4.3课堂练习:考试成绩是否服从正态分布6.4.1单样本K-S检验的原理单样本的K-S检验(Kolmogorov-Smirnov检验)是用来检验抽取样本所依赖的总体是否服从某一理论分布。其方法是将某一变量的累积分布函数与特定的分布进行比较。设总体的累积分布函数为F(x),已知的理论分布函数为F0(x),则检验的原假设和备择假设为H0:F(x)=F0(x);H1:F(x)≠F0(x)原假设所表达的是:抽取样本所依赖的总体与指定的理论分布无显著差异。SPSS提供的理论分布有正态分布、Poisson分布、均匀分布、指数分布等。检验统计量:当H0成立且无抽样误差时,统计量D等于0。因此:当D的实际观测值较小时,可以认为零假设H0成立;当D的观测值较大时,则零假设H0可能不成立。其中Fn(x)称为经验分布。假定有样本1,1,2,2,2,4,5,5,5,10。其经验分布为|)()(|max0xFxFDn012121052410()64510951010110nxxxFxxxx6.4.2单样本K-S检验的SPSS操作详解选择菜单栏中的【分析】∣【非参数】∣【旧对话框】∣【单样本K-S】命令,弹出【单样本K-S检验】对话框,如下图所示。这是的主操作窗口。在【单样本K-S检验】对话框的候选变量列表框中选择变量,将其添加至【检验变量列表】列表框中,选择的变量就是要进行分析的观测变量。【检验分布】对话框用于指定检验的分布类型,包括以下4个复选框。【常规】:选择此项,则检验变量是否服从正态分布,这是系统默认选项。【相等】:选择此项,则检验变量是否服从均匀分布。【泊松】:选择此项,则检验变量是否服从泊松分布。【指数分布】:选择此项,则检验变量是否服从指数分布。6.4.3课堂练习:考试成绩是否服从正态分布1.实例内容下图给出了山东某大学某专业30名男生的百米速度。试用单样本K-S检验方法研究其是否服从正态分布。6.4.3课堂练习:考试成绩是否服从正态分布2.实例操作选择菜单栏中的【分析】∣【非参数】∣【旧对话框】∣【单样本K-S】命令,弹出【单样本K-S检验】对话框,如下图所示。在该对话框左侧的候选变量列表框中选择“英语”、“数学”、“语文”将其添加至【检验变量列表】列表框中。6.4.3课堂练习:考试成绩是否服从正态分布3.实例结果及分析(1)描述性统计量表。从下表中可以读出以下信息,参与检验的样本个案数、样本平均值、标准差、最小值、最大值等。(2)单样本K-S检验结果表。从下表中可以看出:英语、数学、语文最大差分绝对值分别为0.178,0.140,0.068正的最大发分为0.121,0.087,0.065。负的最大差分是-0.178,-0.140,-0.068单样本K-S检验Z统计量值为0.178,0.140,0.68,渐近显著性水平为0.08,0.2,0.2都远大于0.05。所以三科考试成绩都服从正态分布。6.5两独立样本的非参数检验两独立样本的非参数检验是通过对两独立样本的分析,推断来自两个总体的分布是否存在显著性差异。之所以称为