第八章相关分析【教学目的与要求】通过本章的学习,使学生了解相关关系和相关分析基本概念,掌握相关分析理论。学生必须深刻领会相关关系的概念,弄清相关分析和回归分析之间的关系,掌握相关分析和回归分析的统计分析方法。【重点和难点】相关分析的概念相关系数的含义与计算回归方程的建立回归系数的含义【课堂讲授内容】前述分析方法如综合分析法、动态分析法、因素分析法、抽样推断法均是对同一现象的数量特征进行描述和分析,而相关分析与之最大区别为相关分析侧重于两个现象之间的数量联系的研究,当然也不排除时间数列的自相关分析。相关分析有广义与狭义之分,广义的相关分析还包括回归分析,本章的相关分析是广义的概念。第一节相关分析概述一、变量关系的类型在大量变量关系中,存在着两种不同的类型:函数关系和相关关系。函数关系是指变量之间存在的一种完全确定的一一对应的关系,它是一种严格的确定性的关系。相关关系是指两个变量或者若干变量之间存在着一种不完全确定的关系,它是一种非严格的确定性的关系。两者之间的联系:①由于人类的认知水平的限制,有些函数关系可能目前表现为相关关系。②对具有相关关系的变量进行量上的测定需要借助于函数关系。二、相关关系的种类按照相关关系涉及的因素的多少,可分为单相关复相关按照相关关系的方向,可分为正相关负相关按照相关的表现形式,可分为直线相关曲线相关按照相关的程度,可以分为完全相关完全不相关不完全相关三、相关分析的内容对于相关关系的分析我们可以借助于若干分析指标(如相关系数或相关指数)对变量之间的密切程度进行测定,这种方法通常被称作相关分析(狭义概念),广义的相关分析还包括回归分析。对于存在的相关关系的变量,运用相应的函数关系来根据给定的自变量,来估计因变量的值,这种统计分析方法通常称为回归分析。相关分析和回归分析都是对现象的之间相关关系的分析。广义相关分析包括的内容有:确定变量之间是否存在相关关系及其表现形式狭义相关分析确定相关关系的密切程度确定相关关系的数学表达式回归分析确定因变量估计值误差的程度第二节一元线性相关分析一、相关关系密切程度的测定在判断相关关系密切程度之前,首先确定现象之间有无相关关系。确定方法有:一是根据自己的理论知识和实践经验综合分析判断;二是用相关图表进一步确定现象之间相关的方向和形式。在此基础上通过计算相关系数或相关指数来测定相关关系密切的程度。相关系数是用来说明直线相关的密切程度;相关指数则是用来判断曲线相关的密切程度。这是主要介绍相关系数的计算。相关系数是用来分析判断直线相关的方向和程度的一种统计分析指标,其计算方法中最简单是最常用的为积差法,是用两个变量的协方差与两变量的标准差的乘积之比来计算的,计算公式如下:yxxyr2))(22))((yyxxyyxx(1))()(2222yyxxyxxy(2)2222)()(yynxxnyxxyn(3)上述三个公式均可以使用,由于(3)式是通常原始资料计算,所以较为准确,也较为常用。相关系数的取值范围是:-1≤r≤+1正的表示正相关,负的表示负相关。利用相关系数判断相关关系的密切程度,通常认为:相关系数的值直线相关程度r=0完全不相关0<r≤0.3微弱相关0.3<r≤0.5低度相关0.5<r≤0.8显著相关0.8<r≤1高度相关r=1完全相关二、一元线性回归分析回归分析是对具有相关关系的两个变量之间的数量变化的一般关系确定一个合适的数学表达式,以便进行估计和预测的统计方法。用一条回归直线来表明两个相关变量之间一般数学关系的方程式,成为简单直线回归方程。这种分析方法称为一元线性回归分析。(一)一元线性回归分析的特点1.在两个变量之间,必须根据研究目的具体确定哪个是自变量(x),哪个是因变量(y)。2.没有明显因果关系的两个变量(x)与(y)可以求得两个方程——y依x的回归方程和x依y的回归方程.两个方程式相互独立的,不能相互替换。3.回归方程的主要作用在于给出自变量的数值来估计因变量的数值。一个回归方程只能做一种推算。4.计算相关系数时,要求相关的两个变量都是随机的变量;但是进行回归分析时,尽管两个变量也都是随机变量,但要求自变量是给定的,因变量是随机的。(二)一元线性回归模型与参数估计1.直线方程的模型为:bxayc式中,yc表示因变量的估计理论值;x为自变量的实际值;a,b为待定参数。其几何意义是:a是直线方程的截距,b是斜率。其经济意义是:a当x等于0时,y的估计值;b是当x每增加一个单位时,y平均增加或减少的量,b也叫回归系数。(与相关系数的关系)求a,b两个参数的计算公式为:22)(xxnyxxynbxbya2.一元线性回归方程的估计标准误差估计标准误差是用来说明回归方程代表性大小的统计分析指标,是指示实际观察值和理论值的平均误差。其计算公式为:2)(2nyyScyx然而,估计标准误差根号内的分母部分不是n,而是n-2,其表示估计回归线失去两个自由度,即样本数据的个数减去自变量的个数(m=1),再减1。在实际应用中,当n很大时,一般是n≥30时,计算估计标准误差时就用n来代替n-2,则计算公式就成为:ncyySyx)(2简便公式为:nxybyaySyx2第三节多元线性相关分析*一、多元线性相关的涵义在统计中,研究一个变量与多个变量之间相关关系的理论和方法,称为多元相关分析;研究一个因变量和多各自变量的回归分析就是多元回归分析或复回归分析。多元回归可分为两个主要方面:一是线性回归;二是非线性回归。二、多元线性回归模型(一)多元线性回归模型多元线性回归模型的一般表达式为:iimmiiiiuxbxbxbxbby3322110式中,0b表示截距,mbbb,,,21分别表示与个自变量相联系的斜率,iu表示剩余残差项或称作随机扰动项服从),0(~2iu。多元线性回归方程为:mmcxbxbxbby22110方程式中的参数0b,mbbb,,,21的求解方程式组为:mmxbxbxbnby22110mmxxbxxbxbxbyx1212211101mmxxbxbxxbxbyx2222121202………………………222110mmmmmmxbxxbxxbxbyx(二)二元线性回归模型两个自变量(用x1和x2表示)分别与因变量之间呈现线性相关时,可用二元线性回归模型来表示:iiiiuxbxbby22110上式中,iu表示剩余残差项或称作随机扰动项服从),0(~2iu。二元线性回归方程:22110xbxbbyc求解210,,bbb参数的方程组为:22110xbxbnby212211101xxbxbxbyx222121202xbxxbxbyx三、多元线性回归方程的估计标准误差在多元线性回归分析中,回归估计标准误差的计算同一元线性回归标准误差的计算方法相同。公式如下:1)(2mnyyScyx四、复相关系数和偏相关系数(一)复相关系数复相关系数是指在具有多元相关关系的变量中,用来测定因变量y与一组自变量xxxxm321之间相关程度的指标。复相关系数的计算公式为:22123,)()(1yyyyrcmy复相关系数的取值是介于-1和+1之间,和简单相关系数一样,也是用其绝对值的大小来判断相关的密切程度。(二)偏相关系数偏相关系数是在多个变量中,当其他变量保持不变的情况下,测定任意两个变量之间的相关程度的指标。偏相关系数取值是介于-1和+1之间,和简单相关系数一样,也是用其数值的大小来判断相关的密切程度。设有三个变量xxx321,,,如果在这三个变量中,剔除x3的影响,可计算x1,x2对x3偏相关系数,记作r3,12,其计算公式为:223,12)(1)(13231323321xxxxxxxxxxrrrrrr如果在这三个变量中,剔除x2的影响,可计算x1、x3对x2偏向关系数,记作r2,13,其计算公式为:222,13)(1)(12321232131xxxxxxxxxxrrrrrr如果在这三个变量中,剔除x1的影响,可计算x2,x3对x1偏向关系数,记作r1,23,其计算公式为:221,23)(1)(11312131232xxxxxxxxxxrrrrrr【知识要点网络图】【随堂练习】1.抽取由10名大学生组成的随机样本,研究他们在高中与大学的英语成绩得出下表结果:高考成绩(分)x40609588768398809568大学成绩(分)y50729590758895839073试用相关系数r测定其相关程度。2.下面是几家百货商店销售额和利润率的资料:商店编号每人月平均销售额(千元)利润率(%)12345678910658147633712.610.418.53.08.116.312.36.26.616.8合计50——要求:变量关系相关关系函数关系直线相关曲线相关相关程度高直线回归方程曲线回归方程表达式相关系数相关指数回归误差分析回归方程的代表性①以纵轴表示利润率,横轴表示每人月平均销售额,画出散点图,观察并说明两变量之间存在何种关系。②计算每人月平均销售额与利润率之间的相关系数,并说明其相关的密切程度。③求出利润率对每人月平均销售额的回归方程,解释方程式斜率的经济意义,并在散点图中绘制出回归直线。④若商店每人月平均销售额2千元,试估计其利润率。⑤计算估计标准误差。