6.1 Spearman 秩相关检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

关联性分析的重要性基础统计书中的估计和假设检验所涉及的仅仅是对一些互相没有关系(独立)的变量的描述.但是现实世界的问题都是相互联系的。不讨论变量之间的关系,就无从谈起任何有深度的应用;而没有应用,前面讲过的那些基本概念就仅仅是摆设而已。第六章相关和回归变量间的关系•人们每时每刻都在关心事物之间的关系。•比如,职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。•这些都是二元的关系。•还有更复杂的诸多变量之间的相互关系,比如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。广告投入和销售之间的关系:AD14121086420SALE706050403020100•这两个变量是否有关系?显然,它们有关系;这从散点图就很容易看出。基本上销售额是随着广告投入的递增而递增。•如果有关系,它们的关系是否显著?这也可以从散点图得到。当广告投入在6万元以下,销售额增长很快;但大于这个投入时,销售额增长就不明显了。因此,这两个变量的关系是由强变弱。•这些关系是什么关系,是否可以用数学模型来描述?本例看上去是可以拟合一个回归模型,但绝不是线性的(用一条直线可以描述的)。具体细节需要进一步的分析这两个变量是否有关系?参数统计的关联性分析•参数统计中衡量两个定量变量之间线性相关程度的常用指标是皮尔逊(Pearson)相关系数,也称积距相关系数或动差相关系数(离差相乘)。•相关系数的定义公式是:12211()()()()niiinniiiiXXYYrXXYY1122(,),(,),...,(,).nnXYXYXY“相关”一词涉及一组二元观测的相关值这又是什么关系?•这个关系是否带有普遍性?也就是说,仅仅这一个样本有这样的关系,还是对于其他企业也有类似的规律。这里的数据还不足以回答这个问题。可能需要考虑更多的变量和收集更多的数据。一般来说,人们希望能够从一些特殊的样本,得到普遍的结论,以利于预测。•这个关系是不是因果关系?在本问题中,看来似乎有因果关系。这类似于一种试验;而试验时是容易找到因果关系的。但是,一般来说,变量之间有关系但绝不意味着存在因果关系。这里充满了危险和未知!1.提出假设:H0:;H1:02.计算检验的统计量:3.确定显著性水平,并作出决策。相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行显著性检验。注:这一检验是在零假设成立且两个变量服从正态分布的情况下得出的。参数统计检验的步骤是:22~(2)1rnttnr皮尔逊相关系数的局限性•Pearson相关系数及其显著性检验是建立在数据变量为定量且服从正态分布的前提下。若这一前提不成立,则结果不可信或是错误的。此时需要非参数方法。•Pearson相关系数只能用来度量两个变量的线性相关性,不能用来度量两者的相关性.ˆsPearsonrSpearmanrKendall实践中经常应用的三种相关系数:相关系数秩相关系数相关系数ˆsPearsonrXYSpearmanrKendall传统的相关系数是度量和的线性关系的而后两种非参数的秩相关系数和相关系数则度量更加广义的单调关系(不一定是线性的).这是因为变量的秩不会被变量的任何严格单调递增变换所改变.6.1Spearman秩相关检验SpearmanSpearman秩相关是利用等级相关系数测定变量间等级相关程度的一种非参数统计相关分析方法。.Spearman检验统计量是历史最久(1904年)的秩统计量.SpearmanSpearman检验统计量也被称为1122(,),(,),...,(,).nnXYXYXYXY之后,要检验它们所代表的二元变量和在给定一列数对是否相关010101::::::HXYHXYHXYHXYHXYHXY和不相关.和相关.或和不相关.和正相关.或和不相关.和假设检验问题负相关.12121122,,...,,,...,(,),(,),...,(,)nnnnxxxyyyxyXYxyxyxy设,是抽自两个不同总体,的样本,其观察值为,将它们配对形成和;基本思路与检验步骤1122(,),(,),...,(, ).iiiiiinnxyxyRSRSRSRnS如果将各自排序,分别评出在两个顺序样本中所在位置的名次(即秩),记作和,得到对秩和和n对秩可能完全相同,也可能完全相反,或者不完全相同.( )00iiiiiXYxyxyRSddd可见,当与完全相关时,,记作.其中可以用来度量和的相关程度:越大,与之间的相关越不完全.22     iiiiiiiiiiddRSdRSdnRS与与由于可正可负,直接用测度相关会缩小之间的差值,故用来反映的差值大小;但既受不一致程度的影响,也受观察值个数的多与少之影响。22    .iiddxySpearmanR为了准确度量和的相关程度,我们用的最大值去除,则得到了一个相对测量指标,称为等级相关系数,记为22223(1)/3(1)iiddRnnnn22222222(1)(1)2...2(1)(1)2(1)(3)...(1) . /3idnnnnnnnn的注:这是因为最大值等于22223.(1)/3(1)iiddRnnnn故22()iiidRS很大,则说明两个变量可能负相关,而如果它们很小,则如果可能正相关.010101:1:::::HXYHXYHXYHXYHXYHXY和不相关.和相关.或和不相关.和正相关.或和不相关.检验步骤()建立假和设负相关.11  0011  00.8ssssssssrrrrrrrr的取值范围在到之间.为正相关,为负相关;为完全正相关,为完全负相关;当越接近1,表示样本之间的相关程度越高;越接近于,表示样本之间的相关程注度越低。一般认为为相关程:时时度越高.2112221111()()61(1)()()11,.2nniiiiisnniiiinniiiiSpearRRSSdrnnRRSSRRmanSSnn()计算检验统计量:等级相关系数是测定两个样本相关程度的重要指标:其中003                    .)sssssrrHrrHnSpeamanrcr()做出决策:当时,拒绝;当时,不能拒绝是临界值(书中记为,它是根据样本观测之个数、备择假设(单侧或双侧)以及给定的显著性水平查《秩相关系数检验临界值表》查得。11/520,1()1()(2(2))szrnZzzZxyznNPPz注:.遇到打结的情况时,如果或打结不多,可以用平均秩解决;如果打结过多(超过全部数据的),在计算时需要加上校正因子..当为大样本时,近似服从正态分布。单侧:双侧:学号数学成绩统计学成绩学号数学成绩统计学成绩学号数学成绩统计学成绩172806496011768524050785881280773608286568136872450659829514908756275107055159196例题:某班15名学生的数学成绩与统计学成绩如下表所示试分析学生的数学成绩和统计学成绩的相关性()05.001::(1).HXYHXY解::提出假设和不相关.和正相关2126698110.825(1)15(.1)512niisdrnn:计算检验统计量(-)0.050(3)5%82.5%.0.4460.8sssrrHr:作决策所以拒绝,可以在的显著性水平下认为数学成绩与统计学成绩存在正相关关系。又因为,两者呈高度正相关,相关程度达,2125%在一次跳水比赛中,有名裁判员给运动员的评分引起了争议。下表列出了他们给名选手的评分情况。试在的显著性水平下对这两名裁判员在本次比赛中的评分进行相关分析。选手A裁判员评分B裁判员评分选手A裁判员评分B裁判员评分18.09.078.910.029.08.889.18.337.58.598.89.548.59.8108.28.9510.08.7119.58.667.08.0128.07.5

1 / 21
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功