经济预测与决策之三回归分析预测法本章学习目的与要求通过本章的学习,了解回归分析预测法的概念;掌握回归分析中各系数的计算方法及回归预测方法。本章学习重点和难点重点是一元线性回归预测法。难点是区间估计。本章内容提示第一节回归分析概述一、回归的定义二、回归模型的分类第二节一元线性回归预测法一、一元线性回归模型二、最小二乘估计三、拟合优度的度量四、相关系数检验法五、最小二乘估计式的标准误差六、回归预测第三章回归分析预测法回归分析预测法就是从各种经济现象之间的相互关系出发,通过对与预测对象有联系的现象的变动趋势的回归分析,推算出预测对象未来状态数量表现的一种预测方法。第一节回归分析概述一、回归的定义二、回归模型的分类一、回归的定义回归是研究自变量与因变量之间的关系形式的分析方法,其目的在于根据已知自变量值来估计因变量的总体平均值。在研究某一社会经济现象的发展变化规律时,经过分析可以找到影响这一现象变化的原因。在回归分析中,把某一现象称为因变量,它是预测的对象,把引起这一现象变化的因素称为自变量,它是引起这一现象变化的原因。而因变量则反映了自变量变化的结果。回归自变量与因变量之间的因果关系可以通过函数形式来表现,用数学模型来体现两者之间的数量关系。自变量的值是确定的,而因变量的值是随机的。回归函数中,确定的自变量值所对应的是随机的因变量值的总体平均值。二、回归模型的分类1.按模型中自变量的多少,分为一元回归模型和多元回归模型。一元回归模型是指只包含一个自变量的回归模型;多元回归模型是指包含两个或两个以上自变量的回归模型。1.按模型中自变量的多少分为一元回归模型和多元回归模型。一元回归模型是指只包含一个自变量的回归模型;多元回归模型是指包含两个或两个以上自变量的回归模型。2.按模型中自变量与因变量之间是否线性分为线性回归模型和非线性回归模型。线性回归模型是指自变量与因变量之间呈线性关系;非线性回归模型是指自变量与因变量之间呈非线性关系。3.按模型中方程数目的多少分为单一方程模型和联立方程模型。单一方程模型是指只包含一个方程的回归模型;联立方程模型是指包含两个或两个以上方程的回归模型。单一方程的一元线性回归分析是其它回归分析的基础,本章将主要介绍一元线性回归预测法。第二节一元线性回归预测法一元线性回归预测法是根据一元线性回归模型中单一自变量的变动来预测因变量平均发展趋势的方法。一、一元线性回归模型若用X代表自变量,Y代表因变量。则给定一个自变量的值Xi时,对于一元线性回归模型就有一个因变量的总体平均值E(Yi)与它对应,其函数关系可写成E(Yi)=f(Xi),它表明Y的总体平均值是随着X的变化而变化的。该函数亦称为总体回归函数。一元线性回归模型的基本形式为:E(Yi)=β0+1Xi(3-1)或Yi=E(Yi)+ui=β0+1Xi+ui(3-2)其中β0、1是未知而固定的参数,称为回归系数,ui称为随机扰动项。在回归分析中,我们要根据Y和X的观测值来估计未知的β0和1的值,进而建立回归模型。回归模型通常我们是通过Y和X的样本观测值建立样本回归函数来估计参数的。一元线性回归样本函数17页(3-3)的估计式。为的估计式;为)的估计式;(为式中1100iii10iˆˆYEYˆ,3)-(3XˆˆYˆ回归模型对于样本中每一个与Xi相对的观测值Yi与由样本回归函数得到的估计值有一随机偏差,这个偏差称为样本剩余,记为ei。样本回归函数eXˆˆeYˆYii10iii回归模型回归分析就是要根据样本回归函数来估计总体回归函数。在这里需要解决的问题主要有两个:其一是估计参数;其二是“接近”的程度有多大。二、最小二乘估计建立样本回归函数的方法有许多,其中最流行的是最小二乘法(OLS)。1.最小二乘准则2.最小二乘估计式1.最小二乘准则.当给定样本X和Y的N对观测值时,我们希望据此建立的样本回归函数值应尽可能接近观测值Yi,使其样本剩余的平方和尽可能地小,即ei2min。这一准则就是最小二乘准则。图3-1YYi.e....0XiX2.最小二乘估计式根据最小二乘准则建立样本回归函数的过程为最小二乘估计,简记OLS估计。由此得到的估计值得计算式称为最小二乘估计式。双变量线性回归模型的最小二乘估计XˆˆYˆi10ieYˆYiiiXˆˆYYˆYei10iiii)XˆˆY(e2i10i2i双变量线性回归模型的最小二乘估计由最小二乘准则:ei2min有:0ˆ)XˆˆY(ˆ0ˆ)XˆˆY(ˆ12i10i12i02i10i02iee0X)XˆˆY(20)XˆˆY(2ii10ii10i0Xe0eiii双变量线性回归模型的最小二乘估计式6)-(3NXˆNYˆ5)-(3)X(XNYXYXNˆi1i02i2iiiii1双变量线性回归模型的最小二乘估计式8)-(3XˆYˆ7)-(3)XX()YY)(XX(ˆ102iii1最小二乘估计式xyxˆ2iii1XˆYˆ10三、拟合优度的度量1.拟合优度2.可决系数1.拟合优度拟合优度是指样本回归直线对观测数据拟合的优劣程度。如果全部观测值都在回归直线上,我们就获得“完全的”拟合,但这是罕见的情况,通常都存在一些正ei或负ei。我们所希望的就是围绕回归直线的剩余尽可能的小。2.可决系数拟合优度通常用可决系数来度量。可决系数是样本回归直线对数据拟合程度的综合度量。在双变量的情况下,通常用r2表示可决系数。可决系数可决系数的计算步骤如下:17页r2=(TSS-RSS)/TSS=1-RSS/TSS可决系数r2称为(样本)可决系数,它是最常用的回归直线拟合优度的度量,表示由回归模型作出解释的变差在总变差中所占的比重。可决系数因为TSS=RSS+ESS,所以ESS=TSS-RSS,上式表明,若样本剩余RSS越小,r2的值就越大,拟和优度越好;反之,RSS越大,r2的值就越小,拟和优度越差。r2具有以下两个性质:(1)r2是一个非负数。(2)r2的取值范围是:0r21。r2=1意味着完全拟合,r2=0意味着因变量与自变量之间没有关系。r2还可以按以下推导出的公式求得:yxˆy)xˆ(yyˆTSSESSr2i2i212i2i12i2i2四、相关系数检验法1.相关系数2.相关系数检验法1.相关系数与可决系数密切有关而在概念上又有很大差异的量就是相关系数,它是两个变量之间的相关程度的度量。可以根据下式计算:2rr根据其定义计算:)y)(x(yxr2i2iiir具有以下性质:(1)它可以是正值也可以是负值,其符号取决于上式中分子的符号。(2)它的取值范围在-1和+1之间,即–1r+1。(3)它的性质是对称的,X与Y的相关系数rxy和Y与X的相关系数ryx是相同的,都是r。(4)它只是线性联系或线性相关的度量,用来描述非线性关系是没有意义的。2.相关系数检验法建立一元线性回归模型之后,若要考察两个变量之间是否具有显著的线性相关关系,就需要对模型进行显著性检验。一元线性回归模型常用的线性相关关系的显著性检验方法是相关系数检验法。相关系数检验法的步骤如下:(1)根据相关系数的计算公式计算相关系数r。(2)给定显著性水平,根据和N-2的值,从相关系数临界值表中查出相关系数临界值r,N-2。(3)比较与的值,若rr,N-2,表明两变量之间线性关系在显著性水平时相关关系显著;否则rr,N-2,表明两变量之间线性关系在显著性水平时相关关系不显著,该模型不宜用来预测。五、最小二乘估计式的标准误差用样本函数的系数去估计总体参数需要有某种精度或者可靠性度量。目前常用的的衡量估计值精度的指标是标准误差(se)。标准误差xˆ)ˆ(se2i1xNXˆ)ˆ(se2i2i0标准误差2Neˆ2i2六、回归预测根据样本数据,利用最小二乘法,可以得到最小二乘估计值,建立一元回归的预测模型。根据预测模型可以在给定X的条件下,求得Y的估计值,并进行预测。回归预测有两类:预测对应于给定X条件下的Y的总体均值。这类预测我们称为均值预测。预测对应于给定X条件下的个别Y值。这类预测我们称为个别值预测。1.均值预测其中:1]ˆˆˆˆPr[0200020)()()(YsetYYEYsetYx)XX(N1)Yˆse(2i200均值预测上式表明,在重复抽样中,若构造100个这样的区间,将会有(1)100以上的区间包含个别值。2.个别值预测xXXN11ˆese2i200)()(1]ˆˆPr[0200020)()(esetYYesetY其中:个别值预测上式表明,在重复抽样中,若构造100个这样的区间,将会有(1)100以上的区间包含个别值。七、回归预测例题例3-1为了研究家庭消费支出与家庭收入的关系,对某地区进行了抽样调查。获得每月家庭消费支出和家庭收入的数据如下表:表3-1家庭收入(元)家庭消费(元)800700100065012009001400950160011001800115020001200220014002400155026001500表3-2计算各参数的基础数据表序号XiYixiyixi2yi2xiyiXi21800700-900-41081000016810036900064000021000650-700-460490000211600322000100000031200900-500-21025000044100105000144000041400950-300-1609000025600480001960000516001100-100-101000010010002560000618001150100401000016004000324000072000120030090900008100270004000000822001400500290250000841001450004840000924001550700440490000193600308000576000010260015009003908100001521003510006760000合计17000111000033000008890000168000032200000平均17001110计算9808.0rr9621.088900033000001680000)y)(x()yx(r5455.24417005091.01110XˆYˆ5091.033000001680000xyxˆ222i2i2ii2102iii1查相关系数检验表,当N-2=8时,=001的rN-2=0765,rrN-2,X与Y相关极显著。所建立的回归模型为:8df9621.0r(0.0357)(64.1091)X5091.05455.244Yˆ2ii预测根据以上计算结果,该模型可用于预测。若要预测家庭收入为1600元时,家庭消费的情况。即当Xi=X0=1600元时:)(1055.105916005091.05455.244Yˆ0元八、计算器的使用以上繁琐的计算可以借助计算工具完成。现以fx-3600pv型电子计算器为例,介绍有关的计算技术。对于例3-1可按以下程序完成主要计算:MODE2SKAC800xDyD700DATA1000xDyD650DATA1200xDyD900DATA1400xDyD950DATA1600xDyD1100DATA1800xDyD1150DATA2000xDyD1200DATA2200xDyD140