——符号检验和分位数推断第三章单一样本的推断问题一、3.1.1基本概念符号检验:如果用符号“+”和“-”区分,符号检验就是通过符号“+”和“-”的个数来进行统计推断的,故称为符号检验。假设总体F(x),Me是总体的中位数,对于假设检验问题:0100::HMMHMMeeM0是待检验的中位数取值.X1,X2,……Xn是来自总F(x)的独立同分布的样本,当XiM0时,记为+,当XiM0时,记为-.当H0成立时,+和-出现的机会相等,所以+和-出现的次数S+和S-大略相等。-例3.1.假设某地16座预出售的楼盘均价,单位(百元/平方米)如下表所示:36323125283640324126353532873335问该地平均楼盘价格是否与媒体公布的3700元/m2的说法相符?二、例题讲解这是用样本推断总体位置参数的典型问题确定假设由抽样分布计算拒绝域或计算p值与显著性比较检验统计量在零假设下的抽样分布做出决策假定分布结构解:设楼盘价格服从正太分布N(μ,σ2),可以建立如下零假设和备择假设:37:37:H10H15.1,1412.0/0t3016n53..200S36.5,2XnnSXt自由度为检验统计值:统计量计算为小样本,所以采用由于均值和样本方差分别为是总体均值,根据样本其中,根据自由度,可得t检验的p值为0.89ttWHHttWntnSXtHHttWHHS0:0:)1(~0:0:||,0:0::)(10102/10代之则未知假设检验W表示拒绝域单样本t检验回顾R的t检验的程序及运行的结果如下:x=c(36,32,31,25,28,36,40,32,41,26,35,35,32,87,33,35);t.test(x,mu=37,alternative=two.sided,conf.levei=0.95);假设总是总体的中位数,对于假设检验问题:其中,M0是待检验的中位数取值.假设X1,X2,…,Xn,是从总体中产生的简单样本,定义:,在零假设情况k~b(n,0.5)在显著性水平为α的拒绝域为:ן其中k是满足上式最大的k值e),(FMM0100::HMMHMMee},{},{Y00MXIZMXIiiiini0i1SI(xM)ni0i1SI(xM)},min{K,,SSnnnSS令0.5)p,nk(2KPbinom)(MF例3.2(例3.1续解)0.0213.0.5)p16nk(2,KP于是,在显著性水平0.05之下,拒绝零假设,认为这些数据的中心位置与3700元/m2存在显著性差异。可计算k=3,拒绝域为:0.5)p,nk(2KPbinom由公式:x=c(36,32,31,25,28,36,40,32,41,26,35,35,32,87,33,35);m0=37;sg=sum(xm0);sl=sum(xm0);ml=sg+sl;k=min(sg,sl);p=pbinom(k,ml,0,5);binom.test(k,ml);符号检验的R程序及其运行结果R程序如下:运行结果如下:中位数的单样本符号检验一种针对单一总体的中位数的假设检验。该过程使用总体中位数(μ)等于假设值(H0:μ=μ0)的原假设,并针对备择假设进行检验,备择假设可以是左尾(μμ0)、右尾(μμ0)或双尾(μ≠μ0)假设。单样本符号检验是单样本t检验的非参数模拟,因为它不要求数据来自正态分布的总体,而t检验则要求数据来自正态分布的总体。此外单样本符号检验也不对总体对称作任何假设。符号检验与t检验的比较结论:符号检验在总体分布未知的情况下优于t检验!3.1.2大样本计算一、当n较大时,可以使用二项分布的正太近似进行检验''nnK~N(,)24''Kn2ZN(0,1),nn4n’=S++S-二、当n不够大的时候可用Z的正太性修正,如下式:)1,0(42NnCnSZ21C221C2时,;当时,一般,当nSnS因此,当n不够大的时候可用下列修正公式进行调整。双边:,p-值:左侧:p-值:右侧:p-值:0e01e0H:MMH:MMN(0,1)2P(Zz)0e01e0H:MMH:MM0e01e0H:MMH:MMN(0,1)P(Zz)N(0,1)P(Zz)对离散分布应用正态性修正是非参数统计中较为普遍的做法正太性修正假设X服从离散分布,X所以的可能取值为{0,1,....,n},如果X近似的正态分布为N(μ,σ2),当待估计的点X=kn/2时,k处的概率分布函数P(X≤k)用正态分布N(μ-C,σ2)在k处的分布函数估计,C=1/2,这相当于位置参数向右平移1/2单位的分布来估计k的概率分布;同理,当待估计的点X=kn/2时,k处的概率分布函数P(X≤k)用正态分布N(μ-C,σ2)在k处的分布函数估计,C=-1/2,这相当于位置参数向右平移1/2单位的分布来估计k的概率分布。例3.3设某化妆品厂商有A和B两个品牌,为了解客户对A品牌和B品牌化妆品在使用上的差异,将A品牌和B品牌化妆品同时交给45位客户使用,一个月以后得到以下数据。喜欢A品牌的客户人数:22人喜欢A品牌的客户人数:18人不能区分的人数:5人分析在显著性水平α=0.10下,是否能够认为两种品牌在市场上的被喜爱程度存在差异?解:假设检验问题:H0:P(A)=P(B),喜欢A品牌的客户和喜欢B品牌的客户比例相等H1:P(A)≠P(B),喜欢A品牌的客户和喜欢B品牌的客户比例不等分析:这是定性数据的假设检验问题,可以应用符合检验,喜欢A品牌的人数设为S+,S+=22;喜欢B品牌的人数设为S-,S-=18,S++S-=n'=40,n'/2=20,由于S+20,所以取正修正,应用公式有96.17906.04402/1202205.0ZZ3.1.3符号检验在配对样本比较中的应用在对两总体进行比较的时候,配对样本是经常遇到的情况,比如:生物的雌雄,人体疾病的有无,前后两次实验的结果,(x1,y1),(x2,y2),…,(xn,yn)。n对样本数据中,若xiyi,则记为“+”,若xiyi,则记为“-”若xi=yi,则记为“0”,于是数据可能被分成三类(+,-,0),我们只比较“+”和“-”的个数,记“+”和“-”的个数和为n',n'≤n。假设P+为“+”的比例,P-为“-”的比例,那么假设检验问题:可以用符号检验。H0:P+=P-H1:P+=P-例3.4如下表是某种商品在12家超市促销活动前后的销售额对比表,用符号检验分析促销活动的效果如何?连促销前促销后锁销售额销售额符号店14240+25760-33838044947+56365-63639-74849-85850+947470105152-118372+122733-解:假设检验问题:H0:P(促销前)=P(促销后),H1:P(促销前)≠P(促销后).促销前的销售额大于促销后的销售额的样本个数为S+,则S+=4;促销前的销售额小于促销后的销售额的样本个数为S-,则S-=6;则n`=S++S-=10,n`/2=5,应用公式有96.19487.0-4012/1-5405.0ZZ本例R的符合检验的程序及运行的结果如下:x-c(42,57,38,49,63,36,48,58,47,51,83,27);y-c(40,60,38,47,65,39,49,50,47,52,72,33);xy-x-y;sg=sum(xy0);sl=sum(xy0);n1=sg+sl;k=min(sg,sl);binom.test(k,n1);根据符号检验原理,可以将中位数符号检验推广到单一总体p分位数的检验。3.1.4分位数检验——符号检验的推广假设总体F(Mp),Mp是总体的p分位数,对于假设检验问题:其中,Mp0是待检验的p0分位数.上述检验问题等价于类似中位数检验,定义:在零假设下,Zi~B(1,p0),假设有效数字n`=S++S-,零假设下S+~b(n`,p0),S-~b(n`,1-p0),0100p:p:HMpMHMpM0100p:p:HpHp},{},{Y0p0pMXIZMXIiiiiniiYS1niiZS1第二节Cox-Staut趋势存在性检验H0:数据序列无趋势H1:数据序列有增长或下降趋势设数据序列:x1,x2,…,xn独立,在零假设下,同分布为F(x),令取xi和xi+c组成数对(xi,xi+c).当n为偶数时,共有c对,当n为基数时,共有c-1对.计算每一数对前后两值之差:Di=xi-xi+c.用Di的符号度量增减.令S+为正的数目,S-为负的数目,S++S-=n`,n`≤n.K=min{S+,S-},当K过小的时候,认为数据存在趋势,在零假设情况下Di服从二项分布。从而转化为符号检验问题。n/2,ncn为偶数(n+1)/2,为奇数双边假设检验问题:单边假设检验问题:H0:数据序列无趋势H1:数据序列有下降趋势结果类似,S+很大时(S-很小时),有下降趋势,反之,当S+很小时(或S-很大时),有上升趋势。H0:数据序列无趋势H1:数据序列有上升趋势例3.6某地区32年来的降雨量如下表年份19711972197319741975197619771978降雨量206223235264229217188204年份19791980198119821983198419851986降雨量82230223227242238207208年份19871988198919901991199219931994降雨量216233233274234227221214年份19951996199719981999200020012002降雨量226228235237243240231210问(1):该地区前10年来降雨量是否有变化?(2):该地区32年来降雨量是否有变化?解(1):假设检验问题:H0:该地区前10年来降雨量无上升趋势H1:该地区前10年来降雨量有上升趋势,C=10/2=5,前后观察值为下表:由上表可以看出K=2,则p值为05.05.0)51(21``21)2()(50kininKPkKP(2):这里的数据对增加到16对,原假设如下H0:该地区32年来降雨量有无上升趋势H1:该地区32年来降雨量有上升趋势由上表可以看出K=2,则p值为500.0)161(21``21)1()(160kininKPkKP前后观察值为下表:x1-c(206,223,235,264,229);y1-c(217,188,204,182,230);sg=sum(x1y1);sl=sum(x1y1);n1=sg+sl;k=min(sg,sl);binom.test(k,n1);本例R的符合检验的程序及运行的结果如下:一般来说,样本量太少,很难拒绝零假设x1-c(206,223,235,264,229,217,188,204,182,230,223,227,242,238,207,208);y1-c(216,233,233,274,234,227,221,214,226,228,235,237,243,240,231,210);sg=sum(x1y1);sl=sum(x1y1);n1=sg+sl;k=min(sg,sl);binom.test(k,n1);为了形象,我们直接做出直线结果表明:数据的线性趋势并不显著.x1-c(206,223,235,264,229,217,188,204,182,230,223,227,242,238,207,208,216,233,233,274,234,227,221,214,226,228,235,237,243