第九章相关与回归

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第九章相关与回归2相关和回归分析是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。本章介绍相关和回归分析的基本原理和系统分析的方法。第一节相关的概念和二元概率分布1.什么是相关关系?确定性依存关系不确定(随机性)依存关系2.相关关系种类正相关负相关曲线相关不相关变量之间关系函数关系相关关系共变关系互为因果关系因果关系正相关一元相关线性相关负相关多元相关曲线相关xxxxxxxxxxxxyxxyxxyxxyxx23.二元概率分布例:某企业200名职工的企业工龄和时工资的分布企业工龄(年)x时工资级别(元)y总计123120(0.10)0(0)0(0)20(0.10)240(0.20)10(0.05)0(0)50(0.25)324(0.12)24(0.12)12(0.06)60(0.30)416(0.08)26(0.13)8(0.04)50(0.25)50(0)0(0)20(0.10)20(0.10)总计100(0.50)60(0.30)40(0.20)200(1)二元概率分布的5个特征值:(1)x的数学期望:(2)y的数学期望:(3)x的方差:(4)y的方差:(5)x与y的协方差:可度量x与y之间的线性相关关系第二节简单线性相关一、相关系数xy0联合频数联合概率边缘频数边缘概率)()(iixpxxE)()(iiypyyE)()]([22iiixxpxEx)()]([22iiiyypyEy)()]()][([jijiyxxyyxpyEyxEx0))((0)(,0)(<><yyxxyyxx0))((0)(,0)(><<yyxxyyxx0))((0)(,0)(>>>yyxxyyxx0))((0)(,0)(<<>yyxxyyxxIIIIIIVI从散点图看协方差的作用xy3协方差σxy可表明x、y的“共变性”和线性相关的方向。但不是一个适用于比较的相关关系的量度。积矩相关系数是对它的改进。未分组资料:分组资料:二、相关系数的检验(t检验)H0:p=0,H1:p≠0检验统计量第三节一元线性回归模型一、回归的概念和回归分析的特点回归分析和相关分析的联系和区别联系区别①理论和方法具有一致性;②无相关就无回归,相关程度越高,回归越好;③相关系数和回归系数方向一致,可以互相推算。①相关分析中,x与y对等,回归分析中,x与y要确定自变量和因变量;②相关分析中x,y均为随机变量,回归分析中,只有y为随机变量;③相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。yxyxnyyxxnyyxxr))(())((2222)()(yynxxnyxxynr])([])([))((2222yyxxyxxyfyfynfxfxnfyfxfyxnr212||rnrt4二、一元线性回归模型(一)一元线性回归模型的性质回归系数b表明自变量x每变化一个单位因变量y的增(减)量。1.b与r的关系:r>0b>0r<0b<0r=0b=02.bxayˆ是理论模型,表明x与y两变量之间的平均变动关系。(实际值):(二)一元线性回归模型的确定x0-bbaaa000xxxyyybxayˆ截距斜率(回归系数)ayˆxyyxrbbr;jjijybxayˆ)(X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。随机干扰:各种偶然因素,观察误差和其他被忽视因素的影响。y5根据实际数据,用最小平方法,即使,分别对a、b求编导并令其为零,求得两个标准方程:解联立方程,得到三、判定系数(r2)和估计标准误(Sxy)(一)判定系数(r2)判定系数是对回归模型拟合优度的评价。总偏差=回归偏差+剩余偏差r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。min)ˆ(2yyj2xbxaxyxbnay22)(xxnyxxynbnxbnya)(0yyy0xbxayˆY0)ˆ(0yy)ˆ(yy222)ˆ()ˆ()(yyyyyy222222)()ˆ(1)()ˆ(yyyyryyyyr或102222<<rynyynxybyar2rr(相关系数)y6(二)估计标准误(Sxy)Sxy是二元正态分布中因变量实际值(yj)对估计值()离散程度的量度。Sxy越小,拟合越好;Sxy越大,拟合越差。Sxy也是用自变量对因变量进行区间估计的抽样误差。四、一元线性回归模型的显著性检验(一)回归系数b的检验设总体回归系数为β0H0:β=0;H1:β≠01.n≥30时检验统计量(β=0)σb是样本回归系数抽样分布的标准差。通常是未知的,用其估计量代替。yˆyx68.27%94.45%99.73%22)ˆ(222nxybyaySxynyynSxy剩余编差yˆyˆbbZbˆ322222/)()(ˆxnxnxybyayxxxySb7给定显著性水平α,查Z表可知其临界值。2.n<30时检验统计量(β=0)给定显著性水平α,查t表可知其临界值。(二)回归模型整体的F检验或(可见,F检验实质上是对总体回归模型H0:R2=0的检验。)2Zbbtˆ)2(2nt2/)ˆ(1/)ˆ(//22nyyyyF自由度剩余偏差自由度回归偏差检验统计量221)2(rnrF8五、应用一元回归模型进行区间估计1.n≥30时给定x0,y0的置信度(1-α)的置信区间为:2.n<30时给定x0,y0的置信度(1-α)的置信区间为:给定的x0越接近,y值估计的精确度越高。第四节多元线性回归模型一、多元线性回归模型的性质与模型的确定1.模型性质SxyZyy20ˆSxyZbxa20)(%73.99)3ˆ(%45.95)2ˆ(%27.68)1ˆ(SxyyPSxyyPSxyyPxy0x0+3Sxy+2Sxy+1Sxy-1Sxy-2Sxy-3Sxybxayˆ220)2(20220)2(20)()(11)()()(11ˆxxxxnSxytbxaxxxxnSxytyynnx0xy0bxayˆxx9模型的一般形式:二元线性回归模型:截距偏回归系数△b1:假定x2固定时x1每变动1个单位引起的y的增量。△b2:假定x1固定时x2每变动1个单位引起的y的增量。△,是x1和x2共同变动引起的y的平均变动,反映一组自变量与因变量的平均变动关系。△是给定x1、x2计算得到的估计值,是y的实际值的数学期望。(实际值)2.模型的确定根据实际资料,用最小平方法,即使,分别对a、b1、b2求编导并令其为零,求得三个标准方程:nnxbxbxbay2211ˆ2211ˆxbxbayxbxbay211ˆyˆjjjyxbxbayˆ2211一组自变量对y的线性影响而形成的系统部分,反映x与y变动关系的本质特征。随机干扰:各种偶然因素观察误差和其他被忽视因素的影响。最小2)ˆ(yyj2222112221221112211xbxxbxayxxxbxbxayxxbxbnayjjj10解此联立方程便可得到a、b1、b2。二、多元线性回归模型的判定系数和估计标准误(一)判定系数0<r2<1(二)估计标准误(Sy(x1、x2))r2和Sy(x1、x2)都是对回归模型拟合优度的评价指标。Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误差。三、多元回归模型的显著性检验(一)对偏回归系数的t检验H0:β1=0,H1:β1≠0;H0:β2=0,H1:β2≠0。检验统计量:222)()ˆ(yyyyrj总偏差回归偏差2222211)()(ynyynyxbyxbyajjjj3)ˆ(2),(21nyySjxxy32211nyxbyxbyayjjjj2211ˆ||||,ˆ||||bbbtbt22211222211222),(1)])(([)()()(ˆ21xxxxxxxxxxSxxyb22211222211222),(22)])(([)()()(ˆ21xxxxxxxxxxSxxyb11按显著性水平α和自由度(n-3)查t表可得到临界值(二)模型整体的F检验检验统计量:(k——自变量个数)二元线性回归模型下统计量:或按给定的α和自由度(2)和(n-3)查F表可得到临界值Fα(2,n-3)四、多元回归中的相关分析(一)复相关指一个因变量同多个自变量的相关关系。复相关系数恒取正值。22212)()ˆ(yyyyrrjny)3(2nttt0)3(2nt)3(2nt22)1/()(/)ˆ()1/(/22knyykyyknkFj剩余偏差回归偏差)3/()(2/)ˆ(22nyyyyFj)1(2)3()3/()1(2/2222rnrnrrFF0αFα(n,m)12(二)偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。计算偏相关系数需借助相关系数矩阵表的资料。二元回归中的相关系数矩阵表yx1x2y1.00x1ry11.00x2ry2r121.00x1与y的偏相关系数:x2与y的偏相关系数:偏相关系数与单相关系数符号相同,但数值不同。第五节非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如:双曲线:212221221)2(1)(1)(1rrrrrryyyy212211212)1(2)(1)(1rrrrrryyyyxbayx0yy0xa>0b>0a>0,b<013指数曲线:y=aebx幂函数曲线:y=axb△曲线模型的判别方法:(1)理论和经验判断;(2)观察散点图△曲线模型的确定方法:通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。例如:双曲线模型:指数曲线模型xa>0,b>00a>0,b<00xbay1ˆ'ˆ,1'bxayxx则有令bxaeyˆxexbxayLnaaLnyy'''''',,则有令xb<0xb>0y14小结一、相关与回归的系统分析n对样本数据相关分析回归分析求r建立模型t检验r2评价SxytF对变量本质关系的解释与区间估计(预测)二、注意问题1.注意相关分析和回归分析的联系和区别,正确地把它们结合起来;2.正确理解相关和回归分析中各种测定方法的意义和解释计算的结果;3.选择恰当的回归方程,避免方程形式的错误识别;4.避免多重共线性,即避免自变量之间的高度相关;5.避免因变量的序列相关的影响。6.把定性分析与定量分析结合起来,不能轻易地把统计上的相关关系都解释为因果关系。7.回归模型用于外推预测要谨慎。检验

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功