第七章 非参数统计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第七章非参数统计主要内容非参数统计(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。主要特点(1)不要求总体分布已知或对总体分布作任何限制性假定;(2)不以估计总体参数为目的;(3)能用于定性变量(即定名测定和序列测定的变量);(4)方法直观,易于理解,运算比较简单。(5)缺点是检验的功效不如参数检验方法。χ2检验成对比较检验曼—惠特尼U检验游程检验等级相关检验多个样本的检验χ2检验一、什么是χ2检验χ2检验是运用χ2分布作为理论工具,在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验。(一)χ2分布χ2分布是由正态分布推导出来的一种连续型随机变量的概率分布1、数学形式:设随机变量x1,x2,…,xk相互独立且都服从正态分布N(μ,σ2)。将它们标准化转变为标准正态变量Z1,Z2,…,Zk,k个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。21212222212)(1)()()(ikiikikZxxxxχ2~χ2(k),k是自由度,表示定义式独立变量的个数。当k=1时,222)(Zx2.χ2分布的性质(1)χ2分布的值恒为正值(2)χ2分布的数学期望是自由度k,方差为2k;(3)χ2分布取决于自由度k,随着自由度增大而趋于对称。一般当k≥30时,χ2分布可用正态分布近似计算。k=1k=5k=15k=3(χ2)χ2(k)(二)χ2检验的原理在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断实际结果与理论是否一致。设有k个观察值,f0为它们的实际频数,fe为理论频数。构造一个统计量)(/)(212为自由度kfffeeoki数理统计证明,在大量试验中,若f0与fe相一致时,χ2服从χ2分布。(f0-fe)比较小时,χ2值也较小;(f0-fe)比较大时,χ2也较大。当χ2值大到按χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。(χ2)k=4α=0.05χ20.05(4)=9.488例1(P.258)χ201、拟合优度检验二、应用这是利用随机样本资料对总体是否服从某种理论分布的检验检验步骤(1)对总体分布建立假设H0:总体服从某种理论分布H1:总体不服从该理论分布(2)抽样并对样本资料编成频数分布(f0)(3)以“原假设H0为真”导出一组期望频数(fe)(4)计算检验统计量χ2=∑(f0-fe)2/fe(5)χ2=∑(f0-fe)2/fe给定的α查χ2表,得到临界值(6)比较χ2值与临界值作出检验判断注意事项(1)各组理论频数fe不得小于5,如不足5,可合并组;(2)为使组数不致太少,总频数n>50;(3)根据具体情况确定自由度。2、独立性检验二、应用是利用样本资料对总体的两个变量的数据是否彼此关联的检验,如果不关联,即为独立。检验步骤(1)对总体的两个变量建立假设H0:两变量独立H1:两变量关联(2)将样本资料编成r×c列联表,并列出实际频数Oij(3)计算理论频数(4)计算检验统计量(5)给定的α查χ2表,得到临界值(6)比较χ2值与临界值作出检验判断2112)(ijijijcjriEEOnnnEjiij要点说明•列联表形式(r×c)O11O21O31...Or1O12O22O32...Or2O13O23O33...Or3………...…O1cO2cO3c...OrcO1O2O3...Or123...r行(r)列(c)123…cxy合计n.1n.2n.3…n.cn合计X的边缘频数y的边缘频数•理论频数Eij的计算先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P(A·B)=P(A)·P(B)。因此,某一行某一列的联合概率:nnnnjiPji),(的概率第nnnnnnnnEnjijiij)(,理论频数总频数为•自由度(df)的确定df=(r-1)(c-1)例:r·c=3×4√√√√√√○○○○○○CT1CT2CT3CT4RT1RT2RT3n总行数总列数r1r2r3Df=(3-1)(4-1)=6•r·c=2×2的列联表资料,χ2值简算公式xy1212abcda+cb+da+bc+d合计合计n))()()(()(22dcbadbcabcadnx成对比较检验一、符号检验这是略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。1、检验内容:检验的两组数据是否有显著差异或两总体的位置特征(均值、中位数)是否相同。2、适用条件:关联样本资料;定性变量。3、方法思想:设有关联样本的两组成对的数据xi与yi,比较各对的大小。若xi>yi,记作“+”“若xi<yi,记作“-”若xi=yi,删去,并相应减少n对数据若两组数据没有显著差异,它们之差的“+”、““-”号的个数应大致相等。出现““+”(或““-”)的概率为0.5。如果一次抽样的随机样本的配对数据中,“+”号出现过多或过少,在一定显著性水平α条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。可见,配对符号检验是二项检验的一种应用。由于P=0.5的二项分布呈对称型,所以,只要n>25,即可按正态分布近似处理。4、检验步骤(1)抽样。将样本资料配对比较,计算(+)、(-)号个数(2)建立假设:H0:P=0.5H1:P≠0.05(双侧)H1:P(+)>P(-)或P(+)<P(-)(单侧)(3)计算检验统计量n≤25时;“+”个数n>25时:(4)设定显著性水平α,查表确定临界值或否定域(5)比较并作出判断nPZ5.05.05.0ˆ例1:随机抽取13个单位,放映一部描述吸烟有害健康的影片,并调查得到观看电影前后各单位职工认为吸烟有害的人数的百分比。检验该电影宣传是否有效果(α=0.05)。单位编号12345678910111213(1)放映前(%)(2)放映后(%)(3)差异(2)-(1)6368+4149+5453-7175+3949+4441-6775+5658+4652+3749+6155-6869+5157+解:H0:P=0.5H1:P≠0.5)5.0,13(,)25.02(05.0Pn查二项分布表确定拒绝域由P(13)=0.000P(12)=0.002P(11)=0.010P(10)=0.035P(13)+P(12)+P(11)=0.000+0.002+0.010=0.012<0.025P(13)+P(12)+P(11)+P(10)=0.012+0.035=0.047>0.0250123456可见,拒绝域(双侧)应为0,1,2,11,12,13。78910111213拒绝域拒绝域现检验统计量(+)=10(即10个正号),0.035>0.025所以,原假设H0:P=0.5在5%显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著差异。例2:随机抽取60名消费者对甲、乙两种品牌的饮料评分,甲、乙得分之差为“+”号者35个,“-”号15个,“0”号10个。以显著性水平α=0.05检验两种饮料是否同等受欢迎。解:H0:P=0.5,H1:P≠0.5∵n>25,∴按正态分布近似处理该成数抽样分布的均值和标准差分别为071.0505.05.0)1(,5.0nPPSPpp82.2071.05.07.0ˆ7.050/35ˆ)(pSPPZP检验统计量号的成数样本2.82>1.96,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。96.1||,05.02Z双侧检验临界值二、威尔科克森带符号检验(亦称威尔科克森秩和检验)这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。1、应用条件和检验内容与符号检验相同。2、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(+)的秩和(记为T+)与负号(-)的秩和(记为T-)也应该大致相等。其中之较小者也应趋近于总秩和的平均数()。若正秩和(T+)与负秩和(T-)相差太大,其中较小者偏离总秩和的平均()较远,以致超过给定显著性水平α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。4)1(nnTT3.检验步骤(1)将样本数据配对并计算各对正负差值(2)按差之绝对数大小排序(等级),并按原正负号计算正秩和(T+)与负秩和(T-)(3)建立假设:H0:T+=T-H1:T+≠T-(双侧)H1:T+>T-或T+<T-(单侧)(4)计算检验统计量当n≤25时,取T+、T-中之小者24/)12)(1(4/)1(nnnnnTZ当n25时(5)设定α,并查表确定临界值Tα(或Zα/2)(6)比较统计量与临界值作出判断,对于n≤25,T≤Tα,拒绝H0;T>Tα接受H0曼—惠特尼U检验曼—惠特尼U检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。检验步骤:(1)从总体A、B中分别独立抽取样本nA和nB,将(nA+nB)个观察值从小到大编序(2〕分别计算两个样本,的秩和TA和TB(3)建立假设H0:两总体A和B相对次数分布相同H1:两总体相对次数分布不同(4)计算检验统计量①nA、nB<10时,取UA、UB中小者UA=nAnB+nA(nA+1)/2-TAUB=nAnB+nB(nB+1)/2-TB②nA、nB>10时12/)1()2/(BABABAnnnnnnUZ(5)设定显著性水平α,查U表或Z表得到临界值(6)比较统计量与临界值,作出判断,对于nA、nB<10U≤Uα,拒绝H0,U>Uα,接受H0游程检验一、什么是游程检验游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。设某样本n=12人的标志表现为男、女,有以下三种排列。(i)男,男,女,女,女,男,女,女,男,男,男,男(ii)男,男,男,男,男,男,男,女,女,女,女,女(iii)男,女,男,女,男,女,男,女,男,女,男,男连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。以r表示序列中游程的个数:(i)r=5,(ii)r=2,(iii)r=11(i)是随机性序列;(ii)(iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。二、游程检验方法1.检验总体分布是否相同。将从两个总体中独立抽取的两个样本的观察值混合有序后,观察游程个数,进行比较。2.检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的3.检验规则(小样本。n<20)应用表La和Lb,(α=0.05,r为临界值)(1)单侧检验:观察到的游程个数ro≤临界值(La表)或ro≥临界值(Lb表)反之,接受Ho。否定Ho(2)双侧检验:观察到的游程个数ror(La)<ro<r(Lb)接受Ho下限上限反之,拒绝Ho4.大样本(n1或n2大于20),游程个数r近似正态分布检验统计量rrErZ)()1()()2(212)(212212121212121nnnnnnnnnnnnnnrEr其中:等级相关检验将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。等级相关系数的计算公式)1(122nndbris其中di为两变量每一对样本的等级之差,n为样本容量。等级相关系数与相关系数一样,取值-1到+1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。二、等级相关系数的应用一、等级相关检验的基本原理利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功