第7章回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第七章回归分析回归分析的起源1、回归分析最早是19世纪末期高尔顿(SirFrancisGalton)所发展。2、高尔顿是生物统计学派的奠基人。发现1:儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系。1855:《遗传的身高向平均数方向的回归》发现2:但是有趣的是:通过观察他注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个的人的儿子比其父要高,身材较高的父母所生子女的身高将回降到人的平均身高。换句话说,当父母身高走向极端(或者非常高,或者非常矮)的人的子女,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”(regressiontowardmediocrity)。虽然这是一种特殊情况,与线形关系拟合的一般规则无关,但“线性回归”的术语仍被沿用下来。作为根据一种变量(父母身高)预测另一种变量(子女身高)的一般名称沿用至今,后被引用到对多种变量关系的描述。《欧美统计学史》回归分析的抽象化描述xy1、研究对象的一个或多个变量的变化会引起另一个或多个变量的变化。2、将两个对象的关系记为y=f(x),其中x称为自变量,y称为因变量。3、找出f的具体形式,并估计准确性。相关分析包含回归分析,且需找出变量间的相关关系不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关商品的消费量(y)与居民收入(x)之间的关系(+)收入水平(y)与受教育程度(x)之间的关系(+)粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系学习成绩(y)与迟到次数(x)之间的关系(-)回归分析是处理变量x与y之间统计关系的一种统计方法和技术。如果要由x预测y的值,就要利用x与y的观察值,即样本观测值(x1,y1),(x2,y2),…,(xn,yn)来建立一个公式,当给定x值后,就代入此公式中算出一个y值,这个值就称为y的预测值。如何建立这个公式?(1)绘制散点图(2)建立线性函数:y=a+bx(3)参数a,b还不知道,这就需要由样本数据来进行估计,估计出a,b的值后,即得到回归方程。回归分析xy具体(社会经济)问题设置指标变量搜集整理数据构造理论模型估计模型参数模型检验模型运用经济变量控制经济因素分析经济决策预测修改1.根据研究的目的,设置指标变量2.搜集整理统计数据3.确定理论回归模型的数学形式4.模型参数的估计5.模型的检验与修改6.回归模型的运用建立实际问题回归模型的过程回归模型与回归问题对于x和y间的一元线性回归分析:yfx实际问题模型:ˆˆyfx理论求解模型:00ˆyfx未来预测模型:实际值理论值预测值目标:ˆyy7.2一元线性回归分析研究全国技术贸易额的变化规律并进行预测。全国每年的技术贸易额与很多因素有关,但经过分析,它主要受全国GDP这一因素的影响和制约,于是,我们来寻求二者之间的统计规律,并进行预测。7.2一元线性回归分析从散点图中,我们假定y与x之间大致呈线性关系,则可用直线方程(7-1)来近似地描述散点的分布情况。这条直线称为y对x的回归直线。其表达式(7-1)称为回归方程,a、b称为回归系数。y=a+bx+εˆyabxˆyabx7.2.2确定回归系数我们的目标:即:理论值与实际值尽量接近。21ˆˆminniiiQyyyyxy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}Qi=yi-yi^ˆyabx7.2.2确定回归系数我们的目标:21ˆˆminniiiQyyyy2020iiiiiQyabxaQyabxxb代入并求导:ˆyabx结果:xyxxaybxSbS其中:是样本均值;,xyxyiiSxxyy7.2.2结果及解释最后得到我国技术贸易额与GDP的关系(亿元):69.85870.0073yx技术贸易(TechnologyTransactions)是我国市场体系的重要部分,是链接科研和生产的桥梁和纽带,属于市场体系中的生产要素市场.涉及与技术开发、技术转让、技术咨询、技术服务相关的技术交易活动及相关主体。解释:1、技术贸易只有在GDP=69.8587/0.0073=9452.1之后才能产生;2、每单位GDP可带动0.0073个单位的技术贸易交易。7.2.3相关性检验对回归模型描述实际数据的近似程度,也即对所得的回归模型的可信程度进行检验,称为相关性检验。注意:1、r与Q成反比例关系;2、以上为多元回归分析的相关系数的通用形式。22ˆ1iiiyyryyQ当r大于某一给定的临界值时,通过相关性检验,否则不通过。7.2.3相关性检验1.r的取值范围是[0,1]2.|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关3.r=0,不存在线性相关关系4.-1r0,为负相关5.0r1,为正相关6.|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切7.2.3相关性检验相关性检验的步骤:1、求出回归方程a、b;2、计算相关系数r;3、计算问题的自由度f;4、确定显著性水平(人工选择)5、通过查表找出6、得出相关性结论r1fnm22ˆ1iiiyyryy7.2.3相关性检验在我国技术贸易额与GDP的关系例子中:69.85870.0073yx回归方程:相关系数:22ˆ10.9471iiiyyryy自由度:1151113fnm备选的自由度:0.1/0.05/0.010.4409/0.5139/0.6411r查表找出:通过相关性检验,置信度在99%(以上)7.2.3相关性检验在我国技术贸易额与GDP的关系例子中:1.若|r|大于表上的=0.05相应的值,小于表上=0.01相应的值,称变量x与y之间有显著的线性关系2.若|r|大于表上=0.01相应的值,称变量x与y之间有十分显著的线性关系3.若|r|小于表上=0.05相应的值,称变量x与y之间没有明显的线性关系4.根据前例的r=0.9471=0.05(n-2)=0.6411,表明我国技术贸易额与GDP之间有十分显著的线性相关关系7.2.4预测及置信区间用求解出的回归模型对未来变量进行预测:00ˆyfx以上为点预测。通过构造一个统计量,可进行区间预测:0020ˆ2ˆ11//xxyyTtnnxxS22000/2,2ˆˆ11//2iixxnyyyytnxxSn即:预测值以的概率落在以上置信区间1001%7.3多元线性回归分析研究对象的变化往往和多个因素有关,是多个因素的同时作用导致研究对象的变化,而不是只受一个因素的影响。如某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有个人可支配收入x2、价格x3、研究与开发费用x4、各种投资x5、销售费用x6等。这样因变量y就与多个自变量x1,x2,x3,x4,x5,x6有关。7.3多元线性回归分析多元线性回归方程的基本形式是:1122mmyabxbxbx现在获取到了以上变量的n组观测值:11,11,21,22,12,22,,1,2,,,,,,,,,,,,,mmnnnnmyxxxyxxxyxxx目标:根据以上观测数据,求出最合适的a、b7.3多元线性回归分析将以上问题写成矩阵形式:1,11,21,2,12,22,,1,2,111mmnnnmxxxxxxXxxx12nyyYy1mabb则有:XY其对应的最小二乘估计为:1TTXXXY7.3多元线性回归分析土地问题是当今世界令人瞩目的重大经济问题,人口和经济发展都和土地之间存在着密不可分的联系。人口数(X1)、粮食总产量(X2)和粮食作物面积(X3)是影响土地面积(Y)的重要因素。因变量土地面积与三个自变量之间呈线形相关,因此用三元线形回归方程来分析7.3多元线性回归分析设回归方程为:Y=a+bX1+cX2+dX3利用matlab的regress函数进行计算:X=1.00004.10002.60003.80001.00004.50002.80004.00001.00003.70002.40003.60001.00003.60002.40003.30001.00005.40002.70003.80001.00005.10002.50003.70001.00003.20002.00003.00001.00003.90002.60003.70001.00004.50002.80004.2000Y=5.10005.50004.80004.60005.20005.00004.30004.90005.7000[b,bint,r,rint,stat]=regress(Y,X,alpha);alpha=0.05007.3多元线性回归分析设回归方程为:Y=a+bX1+cX2+dX3[b,bint,r,rint,stat]=regress(Y,X,alpha);b=0.66810.02550.06891.1041bint=-0.41111.7474-0.16990.2210-1.28461.42250.18592.0222r=-0.04750.1077-0.10270.03110.0124-0.05580.1001-0.13200.0868stat=0.957337.34420.00080.0127所以回归方程为:Y=0.668+0.026X1+0.069X2+1.104X3回归系数置信区间预测误差相关统计量7.4非线性回归分析在很多情况下,研究对象与影响因素之间并不存在线性关系,对于某些曲线y=f(x),可以通过变换变量的方法将其转换成直线方程。1bayx原函数:11yxyx变换:yabx案例1下表为我国1990~2001年城镇居民收入与消费支出的情况,根据资料分析城镇居民人均可支配收入与消费支出之间的关系,并根据2002年的收入预测消费支出。年份消费支出人均可支配收入19901278.891510.219911453.811700.619921671.732026.619932110.812577.419942851.343496.219953537.57428319963919.54838.919974185.65160.319984331.65425.119994615.9585420004998628020015309.016859.6案例11、首先将数据输入matlab,并观察其散点图y=1.0e+003*1.27891.45381.67172.11082.85133.53763.91954.18564.33164.61594.99805.3090x=1.0e+003*1.51021.70062.02662.57743.49624.28304.83895.16035.42515.85406.28006.859610002000300040005000600070001000150020002500300035004000450050005500plot(x,y,'o')案例12、计算回归系数x=[ones(12,1),x];[b,bint,r,rint,stat]=regress(y,x,0.05);b=151.59790.7687stat=0.99856

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功