第十章相关与回归分析P1921.了解有关相关与回归分析的基本概念2.掌握相关系数的计算3.理解标准的一元线性回归模型,能够对模型进行估计和检验并利用模型进行预测4.能够应用Excel软件进行相关与回归分析学习目标2/27学习内容一.函数关系与相关关系二.相关分析与回归分析三.标准的一元线性回归模型3/27一、函数关系和相关关系1.函数关系当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。①某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)②企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3xy4/27函数关系和相关关系cont.2.相关关系现象之间客观存在的不严格、不确定的数量依存关系。①商品的消费量(y)与居民收入(x)之间的关系②收入水平(y)与受教育程度(x)之间的关系③父亲身高(y)与子女身高(x)之间的关系·xy5/27二、相关分析与回归分析1.相关分析就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。2.回归分析是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。6/27相关分析与回归分析的区别①是否事先确定自变量与因变量在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。②是否指出变量间相互关系的具体形式相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。③随机变量与非随机变量相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。7/27相关分析与回归分析的联系简单说:相关分析是回归分析的基础和前提;回归分析是相关分析的深入和继续。8/27定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。3.相关关系的判断9/27将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查30个同类服务公司得到的原始数据如表。完成量(小时)203020204030408080504030208050单位成本(元/小时)181616151615151414151516181414完成量(小时)205020305020504020804020508030单位成本(元/小时)161618161518151416141516141515完成量(小时)404040405050505050508080808080单位成本(元/小时)151515161414151515161414141415相关表完成量(小时)202020202020202020303030303040单位成本(元/小时)15161616161818181815151516161410/27广告费(万元)3033334056586572808090年销售收入(百万元)1212121314142022262630010203040020406080100广告费(万元)销售收入(百万元)又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。相关图11/27相关系数简单相关系数:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标,简称相关系数。记为ρ=(,)()()CovXYVarXVarY式中,Cov(X,Y)是变量X和Y的协方差;Var(X)和Var(Y)分别为变量X和Y的方差。总体相关系数是反映两变量之间线性相关程度的一种特征值,表现为一个常数。12/2722()()()()xxyyrxxyy1()()xxyyxyxyn2221()()xxxxn2221()()yyyyn相关系数的计算()()Lnxyxyxy计算相关系数的“积差法”LxyrLLxxyy22()Lnxxxx22()Lnyyyy13/27相关系数的特点1.r的取值介于-1与1之间,r的取值范围是[-1,1]2.当r>0时,X与Y为正相关,当r<0时,X与Y为负相关。|r|的数值愈接近于1,表示x与y直线相关程度愈高;反之,|r|的数值愈接近于0,表示x与y直线相关程度愈低。通常判断的标准是:|r|<0.3称为微弱相关,0.3≤|r|<0.5称为低度相关,0.5≤|r|<0.8称为显著相关,0.8≤|r|<1称为高度相关或强相关。14/27编号人口增长量(千人)x年需求量(十吨)y2x2yxy127416275076262444438821801203240014400216003375223140625497298362542051314202517161268555866773964489576262651697022528561447857988196046561793883301921089003686463360919511638025134562262010535528093025291511430252184900635041083601237223413838454756870481323614455696207363398414157103246491060916171153702121369004494478440合计362622611067614395039647851例:下表是有关15个地区某种食物需求量和地区人口增加量的资料。15/27编号人口增长量(千人)x年需求量(十吨)y2x2yxy合计362622611067614395039647851xyLnxyxy1564785136262261151937928663342151067614362622()xxLnxx215395039226122()yyLnyy81346415193792866334813464xyxxyyLrLL0.995016/274.简单线性回归分析回归分析的内容从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度17/27三、标准的一元线性回归模型概念要点当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项的方程称为回归模型。18/27标准的一元线性回归模型cont.01Yx模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数19/27最小niiniieyyQ121210)ˆ()ˆ,ˆ(使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即0ˆ1ˆ参数0和1的最小二乘估计用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。20/27xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^xy10ˆˆˆ最小二乘法图示21/2722ˆ()tttQeYY201ˆˆ()ttYX010ˆˆ2()0ˆttQYX-=011ˆˆ2()0ˆtttQXYX-01ˆˆttnXY201ˆˆttttXXXY回归系数估计的最小二乘法求解对Q求偏导数,并令其等于零,可得:加以整理后有:22/270ˆ1ˆ回归系数估计的最小二乘法求解cont.解方程组可求得求解和的标准方程如下:23/27编号人口增长量(千人)x年需求量(十吨)y2x2yxy127416275076262444438821801203240014400216003375223140625497298362542051314202517161268555866773964489576262651697022528561447857988196046561793883301921089003686463360919511638025134562262010535528093025291511430252184900635041083601237223413838454756870481323614455696207363398414157103246491060916171153702121369004494478440合计362622611067614395039647851现以前例资料计算如下:24/27编号人口增长量(千人)x年需求量(十吨)y2x2yxy合计362622611067614395039647851xyLnxyxy156478513626226115193792151067614362622()xxLnxx1519379ˆ0.530112866334LxyLxx22613626ˆˆ0.0530122.5905011516yx25/27ˆˆˆ22.59050.530101yxx所以上式中b表示人口增加量每增加(或减少)1千人,该种食品的年需求量平均来说增加(或减少)0.5301十吨即5.301吨。26/27SUMMARYOUTPUT回归统计MultipleR0.995024RSquare0.990073AdjustedRSquare0.989309标准误差6.435265观测值15Coefficients标准误差tStatP-valueLower95%Upper95%Intercept22.595953.9274455.7533446.67E-0514.1112231.08067XVariable10.5300770.01472136.007312.08E-140.4982740.561881Excel进行相关与回归分析27/27结束