第9章普通相关分析9.1相关分析概述9.2相关系数9.3相关系数的显著性检验9.4等级相关变量之间的关系可有两大类:确定性关系(函数关系)和不确定性关系(相关关系):确定性关系:变量之间存在确定性依存关系,即当一个或几个变量取一定的值时,另一个变量有确定值与之相对应。不确定性关系:变量之间确实存在数量上依存关系但关系数值并不确定,即当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。第一节相关分析概述一、相关分析的概念第一节相关分析概述研究两个或两个以上随机变量之间相关关系密切程度和相关方向的统计分析方法。在分析变量的依存关系时,我们把变量分为两种:自变量因变量引起其他变量发生变化的量。受自变量的影响发生对应变化的量。变量之间的相互关系,可以概括为两种不同的类型:(一)函数关系(二)相关关系例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。函数关系指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应。函数关系可以用一个确定的公式,即函数式21rS、圆面积例来表示。),,,(21nxxxfy或:Y=F(X)相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。例2、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:相关关系可用统计模型:21bbIaPQ),,,(21nxxxfy或:Y=F(X)+ε式中,ε为影响Y的除X外的其他随机因素。相关关系反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:1.现象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;2.现象之间的这种依存关系是不严格的,即无法用数学公式准确表示。xy若现象间的这种不严格的依存关系近似于一种直线关系,则其相关关系的图示如右所示。商品消费量与居民收入之间,当居民收入发生变动,商品消费量也会随之发生变动。所以,居民收入为自变量X,而商品消费量为因变量Y。在具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用x表示;发生对应变化的变量称因变量,一般用y表示。如一般地单相关是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。复相关也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。二、相关关系的种类1、按相关关系涉及变量的多少可分为:直线相关当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。曲线相关当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,这就是曲线相关。亦称为一元非线性相关。二、相关关系的种类2、按相关关系形式可分为:直线相关是指两个相关现象之间,当自变量x的数值发生变动时,因变量y随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。曲线相关是指两个相关现象之间,当自变量x的数值发生变动时,因变量y也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。直线相关曲线相关正相关当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。负相关当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。3、按相关的方向可分为:二、相关关系的种类体重90807060504030身高180170160150线性正相关支出700600500400300200成绩100806040200线性负相关非线性负相关4、按相关关系的密切程度分为:完全相关因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。不完全相关变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。完全不相关自变量与因变量彼此独立,互不影响,其数量变化毫无联系。二、相关关系的种类不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关(一)相关分析的主要任务,概括起来是两个方面:一方面,研究现象之间关系的密切程度,即相关分析,这也称狭义的相关分析。另一方面,研究自变量与因变量之间的变动关系,用一个合适的数学模型近似地表达其相关关系,即回归分析。显然,相关分析与回归分析既有区别,也有联系。三、相关分析的任务四、相关关系的测定定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度。相关表将两个变量伴随变动结果编成一张统计表,即相关表。简单相关表两个变量均不分组而形成的相关表。分组相关表对变量进行分组而形成的相关表。依两个变量是否同时分组,又分为:单变量分组相关表只对其中一个变量分组。双变量分组相关表对两个变量同时分组。四、相关关系的测定简单相关表适用于所观察的样本单位数较少,不需要分组的情况。分组相关表适用于所观察的样本单位数较多,标志变异又较复杂,需要分组的情况。两种相关表的适用范围企业编号月产量(千吨)X生产费用(万元)Y123456781.22.03.13.85.06.17.28.0628680110115132135160如:八个同类工业企业的月产量与生产费用简单相关表平均每昼夜产量y(吨)固定资产原值x(百万元)35~4040~4545~5050~5555~6060~6565~70600~65011550~600123500~550213450~5001517400~450224350~4000300~35022223543120YfXf如:20个同类工业企业固定资产原值与平均每昼夜产量分组相关表相关图将变量之间的伴随变动绘于坐标图上所形成的统计图,又称散点图。简单相关图根据未分组资料的原始数据直接绘制的相关图。分组相关图根据分组资料绘制的相关图。四、相关关系的测定某市1996年—2003年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。序号年份工资性现金支出(万元)x城镇储蓄存款余额(万元)y11996500120219975401403199862015041999730200520009002806200197035072002105045082003117051050100150200250300350400450500550400500600700800900100011001200工资性现金支出(万元)城镇储蓄存款余额(万元)例1:简单相关表和相关图从表可看出,随着工资性现金支出的增加,城镇储蓄存款余额有明显的增长趋势。所以,资料表明(如图)有明显的直线相关趋势。企业按销售额分组(万元)流通费用率(%)4以下9.654~87.688~127.2512~167.0016~206.8620~246.7324~286.6428~326.6032~366.5866.577.588.599.51004812162024283236销售额(万元)流通费用率(%)例2:简单分组相关表和相关图正相关负相关曲线相关不相关xyxyxyxy用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。相关图的绘制四、相关关系的测定体重90807060504030身高180170160150XY在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标。1.相关系数的定义第二节相关系数其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。2.总体相关系数定义:X,Y是随机变量,已知二维(X,Y)分布,总体相关系数ρXY(简记为ρ)为:22XYYEYEXEXEYEYXEXEYDXDYXcov))(())(()](()([()()(),(总体相关系数的几个性质ρ=0,表明X与Y不相关。若X与Y相互独立,则必然不相关,即ρ=0。(说明:所谓相互独立,对事件而言,是指:P{AB}=P{A}•P{B};对随机变量而言,是指:P{Xx,Yy}=P{Xx}•P{Yy}。)相互独立的随机变量之间的相关系数必然为0。相关系数为0的两个随机变量,不一定相互独立。相关系数为0的两个服从正态分布的随机变量,一定相互独立。3.样本相关系数定义:(X1,Y1),…,(Xn,Yn)是(X,Y)的一组样本(样本X、Y是配对的),则样本相关系数rXY(简记为r)为:22)()())((yyxxyyxxr2222yynxxnyxxynr简化后为:样本相关系数的使用条件两个变量之间是线性关系,都是连续数据。两个变量的总体是正态分布,或接近正态的单峰分布。两个变量的观测值是成对的(配对的),每对观测值之间相互独立。(1)未分组资料r的计算样本相关系数的计算2222yynxxnyxxynr利用公式计算相关系数对r的解释:(1)r取正值或负值决定于分子;(2)r的绝对值,在0与1之间;(3)r的绝对值大小,可说明现象之间相关关系的紧密程度。-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加相关系数r的特点:1.r值在-1和+1之间变动;当|r|=1时称x与y完全线性相关;当|r|=0时称x与y无线性相关;当0﹤|r|﹤1时称x与y有一定程度的线性相关;r﹥0时正相关;r﹤0时负相关;2.r是一个无名数,可以比较不同现象相关程度的高低。3.r是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,但并不意味着不存在其他类型的关系。一般情况下,通过r值判断相关关系密切程度的标准如下:完全相关和时,表明当高度相关和时,认为当显著相关和时,认为当低度相关和时,认为当不相关和时,认为当完全不相关和时,表明当yxryxryxryxryxryxr118.08.05.05.03.03.000例:用例1的数据计算工资性现金支出与城镇储蓄存款余额之间的相关系数r,并判断二者的相关程度如何?序号年份x(万元)y(万元)119965001202199754014031998620150419997302005200090028062001970350720021050450820031170510序号年份x(万元)y(万元)x2y2xy119965001202500001440060000219975401402916001960075000319986201503844002250093000419997302005329004000014600052000900280810000784002520006200197035094090012250033950072002105045011025002025004725008200311705101368900260100596700合计6480220056812007600002035300解:(1)首先计算r公式中需要用到的计算量,计算结果如表所示。98.011141859202640022007600008648056812008220064802