第7章 群体间的差异比较――非参数检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第7章7.1非参数检验概述7.2单样本的非参数检验7.4双独立样本的非参数检验7.5多独立样本的非参数检验7.6配对样本的非参数检验7.7多配对样本的非参数检验3统计量:根据样本所计算出来的样本的各种描述性指标。如均数、方差、标准差等;参数:关于总体性质的数量化描述。如通过人口普查计算得全国人口的平均年龄。参数估计:采用抽样方法时,可以用样本得到的“统计量”对“参数”进行估计,也叫参数估计。如用样本均数来推断总体均数。参数检验:利用样本或总体的一些数值属性构造“统计量”(如t统计量、F统计量),然后利用统计量所服从的某种已知分布来评价某种情况是不是“小概率事件”,进而拒绝原假设的方法。参数检验要求样本是独立的、随机的,并且来自同一个正态总体,以便得到的统计量确实服从某种已知分布。如果样本来源的总体并非正态的,但样本规模很大且总体的偏态不明显,参数检验也有一定的适用性;如果样本来源的总体并非正态的,同时样本规模很少,这时利用参数检验就会得到错误的结论。非参数检验解决了这一问题,它也需要人为地构造一些统计量,但这些构造出来的统计量并不使用样本的均值或方差等这类对分布非常敏感的统计量,也不对总体分布的正态性提出要求,这种方法被称作“非参数检验”。7在进行参数检验之前,可以先利用非参数检验看一下数据来自什么样的总体,即判断样本的分布形状,然后有针对性地在参数检验和非参数检验之间做出选择。拟合优度检验:判断分布形状的非参数检验。把实际观测到的样本与一个理论上的某种分布所对应的理论预测值进行比较,检验两者是否有显著的差异。包括:随机性检验正态性检验比例检验用于检验样本是否是随机抽样的结果。游程:是指样本序列中连续出现相同变量值的次数。如投掷硬币出现正反两面的变量值序列为1011011010011000101010000111。其中连续的1有9组,连续的0有8组,这一序列总的游程数量为17。如果硬币的正反面出现是随机的,那么在该序列中,许多个1或许多个0连续出现的可能性都不大,且1和0频繁交叉出现的可能性也非常小,因此,游程数太大或太小都将表明变量值存在不随机的现象。故游程检验是对二分变量的随机检验,可用于判断观察值的顺序是否随机。随机性检验的原假设为:总体变量值出现是随机的。分析——非参数检验——旧对话框——游程例:从性别的角度检验数据“手机购买.sav”是否为随机抽样。选入二分变量规定分界点结果说明概值大于0.05,因此可以接受Runs检验的原假设,即就性别而言,数据来自一次随机抽样。单样本K-S检验的原假设:样本所属的总体与指定的理论分布一致。分析——非参数检验——旧对话框——1-样本K-S例:针对“社团.sav”,分析参加社团活动的时间是否服从正态分布。正态分布均匀分布泊松分布指数分布结果说明概值小于0.05,因此拒绝原假设,即参与社团活动的时间不服从正态分布。对于任何仅可分成两类的总体,如果已知其中一类事件所占的比例为P,那么另一类所占的比例必定是1-P,用Q表示。对于同一个总体,P值总是固定的。但在抽样过程中,每次抽样所得的P值都有可能不同。二项分布就是从二分类的总体中抽得的随机样本中可观察到的两类比例的抽样分布。考察每个类别中观察值的频数与特定二项分布下的预期频数间是否存在统计学差异,是对二分类变量的拟合优度检验。原假设:总体中第一类事件的比例是P。二项分布检验的原假设:总体中第一类事件的比例是P。分析——非参数检验——旧对话框——二项式例:针对“住房状况调查.sav”,分析外地户口的比例是否为15%。输入检验变量中第一类事件的比例。结果说明单尾检验的概值小于5%,则拒绝原假设,认为外地户口的比例不是15%。从观测比例来看,应小于15%。观测比例检验比例例:针对“住房状况调查.sav”,分析现住面积在100平米以上的是否为20%.输入检验变量中第一类事件的比例。确定分割点18独立样本的t检验时,要求数据来自正态分布总体的独立随机样本。或者根据中心极限定理,样本容量足够大,其均值的抽样分布近似正态分布。而在样本容量较小的情况下,如果样本呈非正态分布,这时就要考虑以一种更合理的非参数检验方法来代替独立样本的t检验。即秩和检验。假设从两个未知的总体中分别独立、随机地各抽取一个样本,把两个样本中的案例合并起来,然后按照案例值的大小进行排序编号,每个数据的编号就是它的秩。如果混合样本中有相同的数值,就在其所在的位置将这几个相同的秩求平均,作为这几个案例值相同数值的秩。男生英语成绩排序编号成绩求秩70117522.57532.580458555.58565.5女生英语成绩排序编号成绩求秩80118522.58532.59044.59054.59566分别计算来自两个样本的案例值的秩的和。如果两个样本具有相同分布,它们的秩和的均值应该相等。否则,则可推断两总体的分布是有差异的。英语成绩排序编号性别成绩求秩701男1752男2.5753男2.5804男4.5805女4.5856男7.5857男7.5858女7.5859女7.59010女10.59011女10.59512女12此例适用于双独立样本的T检验。但通过正态性检验发现,数据不符合正态分布。样本量足够大的情况下,即使违反正态性假设,T检验也适用。此时可做完T检验后再进一步用双独立样本的非参数检验加以验证。分析——非参数检验——旧对话框——2个独立样本针对数据“住房状况调查.sav”,分析本市户口和外地户口的现住面积和计划面积有无显著差异。本市户口的现住面积和计划面积都更高。本市户口和外地户口的现住面积差异显著,计划面积差异不显著。25我们在做自变量水平为两个以上的均值比较时,一般采用方差分析。方差分析是一种非常稳健的统计分析方法,即在违反数据要求的情况下往往仍然能够得到科学的结果。当数据的正态性假设不能满足的情况下,可进一步采用多独立样本的非参数检验来进一步说明问题。在对参加社团活动的时间做正态性检验时,发现“time”变量不能通过正态性检验。例:数据社团.sav中,比较低年级学生、本科高年级学生、硕士生和博士生参加社团活动的时间是否有差别。违反正态性假设的前提下,仍可以做方差分析。方差分析结果显著。此时可进一步进行非参数检验。分析——非参数检验——旧对话框——K个独立样本利用秩次进行检验,原假设为K组变量都来自相同的一个分布,但不一定要求是正态的,可以在违反正态性假设的情况下代替方差分析。中位数检验结果说明:秩次越高,参加社团活动的时间越多。各组差异显著多独立样本的非参数检验(秩和检验),可以对定序变量进行多组比较,而t检验和方差分析的因变量只能是定距!例:利用财经节目.sav分析不同受教育程度对财经节目的喜好程度有无差异。秩次越高,对财经节目的喜好程度越低。各组差异显著32在t检验中,配对样本的t检验要求前后测的数据来自正态总体。当样本不服从正态总体时,利用配对样本的t检验便可能对结论产生严重误导。这时可以用配对样本的非参数检验方法。例:对20个人进行了一次心理学上关于自负程度的测试,分数越高表示自负的程度也越高。对受试者自负程度先进行前测,经过一定的指导后,再进行后测,试分析这种指导是否减少自负是否有作用。数据见自负程度.sav。进行正态性检验知,样本并不服从正态总体。因此不能采用t检验,考虑用配对样本的非参数检验。原假设:前后测的差值为0(这种指导没有作用)备择假设:后测-前测0分析——非参数检验——旧对话框——2个相关样本Wilcoxon检验和Sign检验都是假设前后测的数据有相同的形状分布,即两个分布有同样的均值和方差。因此,配对样本的非参数检验并不关心分布的具体类型。结果说明P值小于5%,说明前后测的差值是显著的。36多配对样本的非参数检验是通过分析多组配对样本数据,推断样本来自的多个总体的中位数或分布是否存在显著差异。数据要求:各个样本为随机样本各个样本的数据是配对的,即相关样本,各个样本的容量相同。检验方法为弗瑞德曼(Friedman)检验和肯德尔(Kendall)协同系数检验时,样本应是定序、定距或定比数据。检验方法为克科伦(Cochran)Q检验时,样本应是二分变量。三种促销形式下的商品销售额商品编号促销形式1促销形式2促销形式3112866.0017223.009865.0024673.005894.005220.00310480.0014461.0010072.004769.001962.00737.0056482.0013203.009423.006796.00742.00771.007843.00965.00639.0081936.001260.001793.0094694.005222.004061.0010635.00558.00542.00例:为比较三种促销形式对商品销售的影响,收集若干种商品在不同促销形式下的月销售额数据如下。试分析三种促销形式对销售额的影响有无显著差异。见数据“促销方式.sav”检验思路:如果三种促销形式没有显著差异,那么销售额排序后的秩和应相等。商品编号促销形式1促销形式2促销形式3形式1的秩形式2的秩形式3的秩112866.0017223.009865.0023124673.005894.005220.00123310480.0014461.0010072.002314769.001962.00737.0023156482.0013203.009423.001326796.00742.00771.003127843.00965.00639.0023181936.001260.001793.0031294694.005222.004061.0023110635.00558.00542.00321秩和212514分析——非参数检验——旧对话框——K个相关样本结果说明P值小于5%,说明三种促销形式下商品的销售额有显著差异。促销形式2的商品销售额最高。例:有6名歌手参加比赛,4名评委进行评判打分。试推断这4个评委的评判标准是否一致。数据见“评委打分.sav”。Kendall协同系数检验主要是一致性检验。商品编号1号歌手(秩)2号歌手(秩)3号歌手(秩)4号歌手(秩)5号歌手(秩)6号歌手(秩)评委18.75(1)9.6(4)9.2(2)9.65(5)9.3(3)9.8(6)评委28.9(1)9.55(4)9.25(2)9.75(5.5)9.45(3)9.75(5.5)评委38.75(1)9.7(5.5)9.25(2)9.6(4)9.3(3)9.7(5.5)评委48.8(1)9.6(4)9.25(2)9.75(5)9.4(3)9.85(6)秩和417.5819.51223例:有6名歌手参加比赛,4名评委进行评判打分。试推断这4个评委的评判标准是否一致。数据见“评委打分.sav”。此问题可先进行Friedman检验,考察6个歌手的水平是否存在显著差异。如果Friedman检验显著,则进一步进行Kendall协同系数检验。Kendall’sW协同系数在0-1之间,W系数越接近于1,说明越具有一致性;反之,越不具有一致性。分析——非参数检验——旧对话框——K个相关样本结果说明FriedmanTestKendall'sWTestFriedman检验结果显著,说明歌手的水平间存在显著差异。此时可进一步进行Kendall协同系数检验推断专家评分的一致性。Kendall检验结果显著,说明专家的评判标准一致。同时W系数接近于1,进一步说明专家的评判标准一致。CochranQ检验主要用于二分变量的检验。例:数据见“航空公司.sav”是15名乘客对三家航空公司是否满意的数据(1表示满意,0表示不满意)。试推断三家航空公司的服务水平是否有显著差异。CochranQ检验的思路:如果三家航空公司的服务水平没有显著差异,则其得到乘客选1的可能性是相等的。分析——非参数检验——旧对话框——K个相关样本Coch

1 / 50
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功