相关与回归Spearman相关检验注意

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第六章相关与回归Spearman相关检验注意:通常认为为相关程度较高。0.8sr6rs的显著性检验前面计算的rs是抽自两个总体的样本数据计算的结果,从这一相关系数的大小,可以猜测总体的秩相关系数是否与零有显著差异,但是否为真,还应进行假设检验。检验可以研究两个总体是否存在相关,也可以分别研究相关的方向,即是正相关,还是负相关。双侧检验:单侧检验:当n≤30时,根据n和rs查找相应的概率P(H0为真时,R为某值可能的概率)。若P值小于显著性水平α,则拒绝H0;若P值大于显著性水平α,则不能拒绝H0。若n30,则计算Z统计量,该统计量近似服从正态分布。1sZrn例题:经济发展水平X和卫生水平Y之间的相关分析2226634711(1)24(241)10.15090.8491isdrnn显著性检验:因为未指明相关的方向,因此,只需检验是否相关,可以建立双侧检验:0:H不相关1:H存在相关R语言中函数cor.test()可完成Speraman秩相关检验,其调用格式为:cor.test(x,y,alternative=c(two.sided,less,greater),method=c(pearson,kendall,spearman),exact=NULL,conf.level=0.95,continuity=FALSE,...)x,ynumericvectorsofdatavalues.xandymusthavethesamelength.Alternativeindicatesthealternativehypothesisandmustbeoneoftwo.sided,greaterorless.Youcanspecifyjusttheinitialletter.greatercorrespondstopositiveassociation,lesstonegativeassociation.Methodacharacterstringindicatingwhichcorrelationcoefficientistobeusedforthetest.Oneofpearson,kendall,orspearman,canbeabbreviated.Exactalogicalindicatingwhetheranexactp-valueshouldbecomputed.UsedforKendall'stauandSpearman'srho.See‘Details’forthemeaningofNULL(thedefault).conf.levelconfidencelevelforthereturnedconfidenceinterval.CurrentlyonlyusedforthePearsonproductmomentcorrelationcoefficientifthereareatleast4completepairsofobservations.Continuitylogical:iftrue,acontinuitycorrectionisusedforKendall'stauandSpearman'srhowhennotcomputedexactly.解:书上例6.1的R程序如下:d=read.table(E:\\Rwork\\DM1.txt)x=d[,2];y=d[,1]rx=rank(x);ry=rank(y)rsd=rbind(rx,ry,(rx-ry)^2)cor.test(x,y,meth=spearman)输出结果:rsd的输出结果:练习:美国1920到1980年间拥有拖拉机和拥有马匹的农场的百分比为年份1920193019401950196019701980拥有拖拉机9.230.951.872.789.987.790.2拥有马匹91.888.080.643.616.714.410.5是否二者之间有某种相关?何种相关?2''2'2'(1)66()(1)12(1)12nnSuvRnnunnv同分的处理'3()uuu'3()vvvKendallτ检验Kendallτ检验是从另一个角度来看相关,其检验的假设为:负相关与正相关与不相关与不相关;与YXYXYXHYXH::100))((10))((00))((1),,,ijijijijijijjijiYYXXYYXXYYXXYYXX(212),,,)1(2ˆndcnnjinjijiCnnCKYYXXnn(Kendallτ相关系数:nc是X与Y协同的对数,或得+1的对数。nd是X与Y不协同的对数,或得-1的对数。nnjidcjijinnYYXXK1),,,(从定义可以看出,当二变量是相关的,则K的绝对值大,反之当K的绝对值接近1,则x与Y是相互无关的。值界于-1~1之间。当样本容量足够大时18(0,1)(1)(25)KNnnn检验过程:例:下表列出了20个国家和地区的出生率X(%)及人均收入Y(美元),括号中位相应的秩,我们想检验这两者之间是否为负相关。43147104k0.7624sr两种方法的比较:Theil回归和最小中位数二乘回归•在经济计量学中,最简单的模型是只有一个因变量Y和一个解释变量X的线性回归模型。例如,在一般情况下,消费支出总是随着家庭收入的增加而变动的,如果用Yi为消费支出,Xi为家庭收入,为未列入方程的,对有影响的其它众多因素,即随即扰动项。若用简单线性回归模型表示它们的关系即为iiiYXiTheil方法的思想:从残差出发,寻求斜率β,使得所有观测值对(xi,yi)与(xj,yj)拟合回归直线后的残差之差的正负符号相等。记()iiieyxiiidyx则iied第j个与第i个残差之差为()()ijjijijijideeddyyxxTheil回归要求β使得()sgn[()]0ijijTd如果x1,x2,…,xn是按升幂排列的,那么为对子(xi,di)中按Kendall定义的协同的数目减去不协同的数目,即x与d之间的Kendall相关系数为()T2()/nTC记所有两个不同数据点连线的斜率为()/(),1ijjijiSYYXXijn解:R程序如下:d=read.table(E:\\Rwork\\CPIGINI.txt,header=T)x=d[,1];y=d[,2]n=nrow(d)s=NULL;for(iin1:(n-1))for(jin(i+1):n)+s=c(s,(y[j]-y[i])/(x[j]-x[i]))b=median(s);a=median(y-b*x)e=y-a-b*xcoef=c(a,b)输出结果:试建立该种鱼年龄与长度的回归方程。Theil回归中对β的检验000::HH00jijijiijjijijiyyeeddsxxxxxx相比普通最小二乘,Theil回归能接受一定数据污染,为什么最小中位数二乘是最稳健的?•Theil回归是计算所有斜率的中位数,首先它不受leverage的影响(leverage就是线性回归中X(X‘X)^{-1}X’这个hat矩阵的对角线元素大小,这个数越大,其对应的点对回归结果的影响也就越大,如果不幸这个leverage很大的点还是个outlier,那结果就非常不可靠了),其次Theil使用了中位数,进一步减少了outlier的影响。普通最小二乘最小化平方和,因为样本数固定,也可以认为是最小化平方和的均值,也就是averagepenalizeoneachdatapoint,而最小中位数二乘最小化平方和的中位数,所以没有penalizeonoutliers,因此更加稳健。

1 / 37
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功