—S单样本分布检验一、适用范围Kolmogorov-Smirnov检验常译为柯尔莫哥洛夫-斯米尔诺夫检验,简写为K-S检验,亦称D检验法,也是一种拟合优度检验法。K-S单样本检验主要用来检验一组样本数据的实际分布是否与某一指定的理论分布相符合。二、基本原理和方法1、基本原理:这种检验主要是将理论分布下的累计频数分布与观察到的累计频数分布相比较,找出它们间最大的差异点,并参照抽样分布,定出这样大的差异是否处于偶然。、方法用Fn(x)表示样本量为n的随机样本观察值的累计分布函数,且Fn(x)=i/n(i是等于或小于x的所有观察结果的数目,i=1,2,…,n)。F(x)表示理论分布的累计概率分布函数。K-S单样本检验通过样本的累计分布函数Fn(x)和理论分布函数F(x)的比较来做拟合优度检验。检验统计量是F(x)与Fn(x)间的最大偏差Dn:若对每一个x值来说,Fn(x)与F(x)都十分接近,则表明实际样本的分布函数与理论分布函数的拟合程度很高。)()(maxDxFxFnn三、检验步骤1.建立假设组:H0:Fn(x)=F(x)H1:Fn(x)≠F(x)2.计算样本累计频率与理论分布累计概率的绝对差,令最大的绝对差为Dn;3.用样本容量n和显著水平a在附表11中查出临界值Dna;4.通过Dn与Dna的比较做出判断,若Dn<Dna,则认为拟合是满意的。)()(maxDxFxFnn四、实例例8.1:正态拟合。某织布厂工人执行的生产定额(织机每小时生产织物的米物)情况如表8-1,试检验这些样本数据能否作正态拟合?表8-1工人执行生产定额情况分组表按定额执行情况分组工人数3.75~4.25204.25~4.753724.75~5.254985.25~5.751035.75~6.2571000正态拟合解:首先,由于做正态拟合的均值、标准差未知,因此,先计算样本均值和标准差,再做正态拟合。通过对样本资料的计算得:=4.85;s=0.352,分别作为Û和的估计值,建立假设:H0:样本数据服从均值为4.85,标准差为0.352的正态分布H1:样本数据不服从均值为4.85,标准差为0.352的正态分布计算资料列如表8-2:x表8-2正态拟合计算表X的组限标准化标准正态概率累计概率(理论概率)累计工人数实际累计频率(2)-(4)的绝对值甲乙(1)(2)(3)(4)(5)不足4.25-∞~-1.700.0450.045200.0200.0254.25-4.75-1.70~-0.280.3450.3903920.3920.0024.75-5.25-0.28~1.140.4830.8738900.8900.0175.25-5.751.14~2.560.1220.9959930.9930.0025.75-6.252.56-+∞0.0051.00010001.0000.000合计——1.000——-————根据表8-2中第(5)列数据,取最大绝对差数D1ooo=0.025作为检验统计量。若取a=0.05,n=1000,从临界值表中查(检验表K-S)得:。因为D1ooo<0.043,故认为样本数据所提供的信息无法拒绝H0,即接受H0,认为可做正态分布的拟合。K-S检验法是一种精确分布的方法,不受观察次数多少的限制。这个方法可应用于分组或不分组的情形。检验量Dn也可用于检验随机样本是否抽自某特定的总体的问题。(1000,0.05)1.36D0.0431000双样本分布检验一、适用范围K-S双样本检验主要用来检验两个独立样本是否来自同一总体(或两样本的总体分布是否相同)。其单尾检验主要用来检验某一样本的总体值是否随机地大于(或小于)另一样本的总体值。二、理论依据和方法1、理论依据:与K-S单样本检验相似,K-S双样本检验是通过两个样本的累计频数分布是否相当接近来判断Ho是否为真。如果两个样本间的累计概率分布的离差很大,这就意味着两样本来自不同的总体,就应拒绝Ho。、方法如果令S1(x)表示第一个样本观察值的累计概率分布函数,S2(x)表示另一个样本观察值的累计概率分布函数,那么K-S双样本的单尾检验统计量为:K-S双样本的双尾检验统计量为:)()(maxD21xSxS)]()(max[21xSxSD三、检验步骤1、双尾检验假设:H0:S1(x)=S2(x)H1:S1(x)≠S2(x)单尾检验假设:H0:S1(x)=S2(x)或H0:S1(x)=S2(x)H1:S1(x)S2(x)H1:S1(x)S2(x)2、把两组样本分别排成累计频数分布(对两个分布用相同的间隔或分类,并利用尽可能多的间隔。3、计算检验统计量D值,如是单尾检验,应按H1的方向计算D值。三、检验步骤4、显著性检验:⑴小样本情况下,及n1=n2=n,n≤30,用附表12。对于单尾检验和双尾检验,该表列出了不同显著性水平下的临界值。⑵大样本情况下,n1不一定等于n2,但都小于40的双尾检验,可用附表12续表中的公式算出D的临界值。⑶当n1和n2都较大,但又是单尾检验时,用算式22212n(2)124nnDnn四、实例例8.2(小样本)检验两矿的金属含量率是否相同。在甲、乙两矿坑中各抽取10个矿石样本,矿石中含有某种金属含量率(%)的资料如表8-3所示:表7-3解:这是一个双样本的K-S检验,根据题意,建立双侧检验假设组:)()(H)()(H10xFxFxFxF乙甲乙甲::甲矿3.11.22.93.00.62.81.61.73.21.7乙矿3.82.13.27.22.33.53.04.63.13.2四、实例1、列等距分组表,计算各组次数f甲、f乙,累计次数F甲、F乙,累计频率、及其差额。计算结果列如表8-4所示。表7-4例7.2的计算表乙乙nF甲甲nF金属含量率(%)次数累计次数累计频率F甲/10-F乙/10f甲f乙F甲F乙F甲/10F乙/100.0~0.910101/1001/101.0~1.940505/1005/102.0~2.922727/102/105/103.0~3.93610810/108/102/104.0~4.90110910/109/101/105.0`5.90010910/109/101/106.0~6.90010910/109/101/107.0~7.901101010/1010/100四、实例2、确定检验统计量:本例D=5/103、检验与判断。由于n1=n2=10,属小样本,查附表12得临界值D0.05=7/10,因为D=5/107/10,所以接受Ho假设,认为两矿的金属含量率相同。当样本容量较大时,一般当n1+n2>35时,可用附表12续表中的公式计算临界值,只有当样本容量相当大时,检验统计量才渐进服从自由度为2的X2分布,此时可用X2分布表查得临界值。212124nnnnD乙乙甲甲nnmaxFFD四、实例例8.3(大样本)用识别卡片的方法对98名男生进行智力测验。54名男生学习成绩高于中位数为第一组(n1=54),44名男生学习成绩低于中位数为第二组(n2=44),能否认为高分组的智力高于低分组?表7-5识别出卡片的张数高分组低分组累计频率离差高分组低分组0-21111/5411/440.2323-5374/5418/440.3356-86810/5426/440.4069-1112322/5429/440.25212-1412534/5434/440.14315-1714548/5439/440.18218-206554/5434/440合计5444---解:这是双侧检验,建立双侧假设组:Ho:两组“认出”的卡片数相同;H1:两组“认出”的卡片数不同。比较离差大小,得最大离差:D=Max|S1(x)-S2(x)|=0.406已知n1=54,n2=44,都大于40,当α=0.05时,进行双尾检验的临界值为因为D=0.406>Da,因此在0.05的显著性水平下拒绝Ho,即。两组学生的智力不相同。276.04454445436.136.12121nnnnD如建立单尾检验假设组:Ho:两组“认出”的卡片数相同;H1:高分组“认出”的卡片数多于低分组。根据表8-5的数据计算得:D=Max[S1(x)-S2(x)]=-0.406由于是大样本,故计算卡方统计量:当α=0.05,df=2时,查得临界值C=5.991。因X2=15.986C,故在5%的显著性水平下拒绝Ho,即高分组的学生智力显著高于低分组的学生。986.1544544454)406.0(4D42212122nnnn第三节卡方(X2)拟合优度检验一、什么是卡方(X2)拟合优度检验人们通常关心随机变量的概率分布,如:“随机变量服从参数为n=10和p=2的二项分布”,这样的命题假设可以用“拟合优度检验”来检验。即设计一个检验来比较从假设的分布中抽取的样本,看所假设的分布函数与样本数据是否“拟合”。所以,拟合检验就是检验抽取样本的总体分布与某种特定分布的符合程度,也就是检验观察值与理论数之间的紧密程度。以X2分布为依据的这种检验,称为X2拟合优度检验英国统计学家Pearson(皮尔逊)于1900年首先提出了卡方统计量。1、数据:由随机变量X的N个观测组成。这N个观测可划分为k类,即把X的样本空间S划分成k个互不相交的部分S1,S2,…,Sk,且Si与Sj相互独立。即Si∩Sj=ф,(i≠j),记Oi为类i中的观测数,i=1,2,…,k.则k1issikiN1iO第三节卡方(X2)拟合优度检验2、假设条件1.样本是随机的2.度量尺度至少是名义的•3、检验统计量在零假设为真的条件下,令X的一个随机观测落入类i的概率为pi。定义Ei为H0为真时观测值落入类i的期望观测数,即Ei=piN,i=1,2,…,k.给出如下卡方检验统计量:N)(1i22n1i22nkiikiiiEOEEO,该式也等价于第三节卡方(X2)拟合优度检验、零分布:由于的精确分布难以求得,所以我们用自由度为k-1的卡方分布来近似。5、假设组:H0:pi=p(i=1,2,…,k.)H1:pi≠p(对某个i.)若(自由度为k-1的卡方分布的1-a分位数),则拒绝H0,p-值近似等于p(X2(c-1)Q),这个概率可由附表10获得。21)-k(212n2n第三节卡方(X2)拟合优度检验三、X2检验的具体步骤1.数据分组.根据样本观测值的范围划分为K组;2.求X落在各组的频数Yi和频率Yi/n。3.求理论概率Pi。当H0成立时,X出现在(bi-1,bi)内的概率Pi4.计算检验