1第九章回归模型对于一个工商管理人员来说,相当重要的管理决策能力之一是敏锐地洞察商业或生产中数据的发展趋势,并且在已认识的趋势基础上对未来做出正确的预测。而能够做到这一点的强有力的工具之一就是所谓的“回归模型”。数据模型决策29.1简单线性回归模型及预测例9.1广告花费与销售额的预测某公司销售额数据yt(第t月的销售额)与广告花费数据xt(第t月的广告花费)如表。数据模型决策月份(t)月销售金额yt(千元)月广告费xt(千元)xt-1(千元)xt-2(千元)12945280242954002803564545040028046995590450400583456505904506969575065059071104589075065081239510008907509137451050100089010150951200105010001116445125012001050121779513501250120013191451460135012501420495150014601350152184516501500146039.1简单线性回归模型及预测例9.1广告花费与销售额的预测由表中数据可以绘制一张散点图!数据模型决策当月广告费和当月销售额之间的散点图05000100001500020000250000500100015002000月广告费(千元)月销售额(千元)49.1简单线性回归模型及预测从散点图中,你有何发现?数据模型决策yt与xt之间似乎存在不太精确的线性函数关系!那么,我们能不能想象出(或确定出)一条直线来反映这一关系(或规律)呢?关键的问题是如何才能“最好地”反映这一关系!59.1简单线性回归模型及预测简单线性回归模型(一元线性回归模型):数据模型决策yt=+xt+tt=1,2,…,n1,2,…n,iid,~N(0,)称y=+x为线性回归函数(或回归直线),,是两个重要的参数,为回归系数。为了使回归直线能“最好”地反映数据对(x1,y1),(x2,y2),…,(xn,yn)所描述的y与x之间的关系,就需要确定,的值,所采用的方法——“最小二乘”估计法。69.1简单线性回归模型及预测最小二乘估计,:数据模型决策=∑ni=1(xi–x)(yi–y)∑ni=1(xi–x)2=y-x79.1简单线性回归模型及预测由上述分析可以计算得到例9.1中数据模型决策=13.88=-998如果模型成立,即可得回归直线:y=-998+13.88x89.1简单线性回归模型及预测数据模型决策当月广告费和当月销售额之间的散点图05000100001500020000250000500100015002000月广告费(千元)月销售额(千元)99.1简单线性回归模型及预测在以上的分析中,我们始终有一个前提——“如果模型成立”。那么模型究竟能否成立呢?从管理实际角度再对模型加以定性的思考:广告效应的“滞后”性!我们采用另一个线性回归模型:yt=1+1xt-1(t=1,2,…,n)这样,可以得到另一条回归直线:y=335.9+13.9x数据模型决策109.1简单线性回归模型及预测至此,我们得到了两个线性回归模型:1、y=-998+13.88x2、y=335.9+13.9x这两个线性回归模型都可以对未知的月销售额进行预测。但是,哪一个模型更有效呢?解决这一问题的方法是——对预测的误差进行比较!即采用均方残差MSE进行比较。数据模型决策MSE=1n∑ni=1(yi–yi)2119.1简单线性回归模型及预测从两个模型的均方残差MSE来考虑,我们应该选择MSE较小的模型,即选择xt-1与yt的模型略好些,直观的含义就是广告具有“滞后”效应。然而,这两个模型的预测误差都是比较大的,其原因可能是我们仅考虑了一个因素对yt的影响。而事实上,xt-2,xt-1,xt等等,乃至可能其他以前月份已发生的广告费支出对yt都会产生影响。因此,我们的线性回归模型不得不考虑有多个“自变量”的情况——这就引出了“多元线性回归模型”。数据模型决策129.2多元线性回归多元线性回归模型:数据模型决策yi=+1x1i+2x2i+…+kxki+ii,iid,~N(0,)(t=1,2,…,n)例如,假定y为当月的销售额,那么x1可以是上月的广告费,x2可以是产品的价格,x3可以是市场景气指数,……称y=+1x1+2x2+…+kxk多元为线性回归函数139.2多元线性回归和一元线性回归的分析类似,重要的是确定模型中的参数,1,2,…,k的估计。采用的方法仍然是使:残差平方和SSE达到极小!数据模型决策SSE=∑ni=1(yi–yi)2=∑ni=1(yi––1x1i–2x2i–…–kxki)2149.2多元线性回归现在分析例9.1,我们考虑线性回归模型:yt=+1xt+2xt-1+3xt-2+t(t=3,4,…,15)数据模型决策多元线性回归——MicrosoftExcel159.2多元线性回归模型分析1、回归系数数据模型决策=522.13066591=3.6814836412=4.9658061763=5.19950817于是有回归方程:yt=522.1+3.681xt+4.4.966xt-1+5.2xt-2169.2多元线性回归模型分析2、标准误差SS是对t所服从的N(0,)中的估计:即=S数据模型决策3、自由度df=观察次数(n)-自变量个数(k)-14、回归系数的置信区间和标准差5、t–Stat该项的作用是检验每一个xj与y的线性关系是否显著,如果检验结果认为xj与y有显著的线性关系,则模型中保留xj项是合理的,否则可以将此项从模型中剔除。保留或剔除xj项可以根据p-Value值作简单的判断:p-Value值较大——剔除xj项p-Value值较小——保留xj项179.2多元线性回归模型分析在保留或剔除xj项时应该注意以下几点:(1)应该首先注意自变量xj的线性项是否应含于模型中,只有当此项工作全部完成后,才对是否为0进行检验。(2)如果发现某xj相应的p-Value较大,则应将xj项从模型中剔除,且应注意,这种剔除工作应逐次进行(即每次只剔除p-Value最大的一项)直到模型中不含p-Value较大的项。对前面的回归模型中,我们剔除xt项,重新建立回归模型:yt=1161.6+5.873xt-1+7.945xt-2数据模型决策189.2多元线性回归模型分析6、判别系数R2(R也称为相关系数或复相关系数)判别系数R2的作用是判别因变量y与自变量x之间的线性关系是否合理(即线性相关性的程度),R2是一个0到1之间的数,当它越接近于1,则表明线性模型越拟合于数据,即线性回归模型越合理。当它越接近于0,则表明线性回归模型越不合理。另外,有一点应该注意,建立多元线性回归模型时,总是力求建立具有较少的、合理的、有意义的个数自变量的简单模型。不要单纯地为了追求高的R2值而在模型中引入“过多”的自变量。数据模型决策19R2=0.995051015200501001509.2多元线性回归模型分析下图分别是R2=0.995,R2=0.797时所对应的图形。数据模型决策R2=0.797051015200102030209.2多元线性回归模型分析7、方差分析方差分析表是用于检验自变量的线性组合是否对于预测因变量有效,即检验模型是否是线性模型。其检验方法称为:F–检验,检验模型为H0:1=2=…=k=0;对H1:至少有一个不为0方差分析表中的F数值越大,我们就越应该拒绝H0而接受H1:表中SignificanceF数值给出了F数值“发生”的概率。拒绝H0的理论就是:小概率事件在一次实验中“几乎”不可能发生的事实。数据模型决策219.2多元线性回归模型分析建立线性回归模型的小结:在建立一个线性回归模型时:R2,F-检验(方差分析),t-检验(回归分析)三者都极其重要,其分析缺一不可,否则,强行建立的线性回归模型很难用于解释现象或进行预测。这一点我们必须牢记!!!数据模型决策229.3线性回归模型的有效性上面我们所做回归分析的所有工作都在一系列假设之下进行的,即线性回归模型成立。但是,倘若这些假设不成立,那么回归模型的有效性就成了问题。前面的分析,我们在i,iid,~N(0,)成立的假设下,检验了y=+1x1+2x2+…+kxk+成立的合理性。现在我们要回头来检验关于误差的假设是否成立。数据模型决策239.3线性回归模型的有效性1、关于模型的线性假设线性回归模型首先作了假设:yi=+1x1i+2x2i+…+kxki(i=1,2,…,n)当只有一个自变量时,散点图可以帮助我们直观地检验此假设。但如果有多个自变量时,就无法这样做了。虽然每一个自变量与因变量也可有散点图,但将所有自变量综合在一起时,情况就不同了。如前所述,此时R2可以起一定的作用,但是R2也有其缺陷。要判断是否线性问题——利用残差图。数据模型决策249.3线性回归模型的有效性2、误差项的正态性在线性回归模型中的另一个重要假设是:i:iid,~N(0,)i本身是无法观察的,但它可以利用残差ei=yi–yi进行估计。数据模型决策^而残差所提供的信息使我们能对i的正态性进行检验。常用而有力的一个工具是——残差图分析259.3线性回归模型的有效性残差图残差图:以残差为纵坐标,以某一个“合适”变量为横坐标的散点图。“合适”变量通常选回归值(预测值)y。数据模型决策^下图是一个多元线性回归模型的残差图和残差直方图:-400-20002004000100002000030000y预测值残差e直方图012345-260-200-140-80-2040100160220280340400其他残差ei频率269.3线性回归模型的有效性3、异方差性在线性回归模型中,误差项i具有相同的方差也是一个重要的假设。其原因是回归模型分析中所有的假设检验都要依赖这一假设。考察这一假设通常也是利用残差图来进行。如果残差随x(或y)的增大而增加或减少,那就可能蕴涵着残差乃至误差项对于不同的观察值具有不同的方差变化,于是模型中的i很可能不是相同方差的。解决的方法常常是对y变量实施方差稳定变换后再拟合模型。常用的这类变换有三种以达到稳定方差的作用:数据模型决策√y,Logy,1/y279.3线性回归模型的有效性4、自相关性在回归模型中,我们还假设1,2,…,n是相互独立的随机变量,如果发生自相关性现象就违背了这一假设。判断是否存在“自相关”现象,仍然可以根据残差图进行大致的判断。如果以时间为横轴得到的残差图表现出某种趋势规律,或至少不像残差“相互独立”时那样在零点线上下起伏无规律地波动,则很可能1,2,…,n不是相互独立的。另一种方法是采用Durbin–Watson检验法对残差的“自相关”性进行假设检验。数据模型决策289.3线性回归模型的有效性5、共线性回归分析中很容易发生模型中多个自变量高度相关的现象,这有可能引起最小二乘估计的解的不精确,从而使决策者对预测方程的可信性降低。一旦确定回归方程有共线性现象时,处理的方法可以:a、搜集更多的数据以提高精度;b、从模型中剔除一个或几个预测变量,但此时需要小心行事,因为我们不能完全弄清楚到底哪个预测变量应该被剔除。如果剔除错误,将会导致模型的错误,而使模型中的参数估计发生错误。数据模型决策299.3线性回归模型的有效性6、异常点问题回归模型中,某些对既定模型偏差很大的观察数据称为异常点,它的存在使统计决策受到相当大的影响。然而对异常点的判定准则并无统一标准!数据模型决策05101520250510152025309.4包含属性数据的回归分析属性信息——诸如:季节、地理区域、特殊事件等等。他们将对回归模型有何影响,如何将其具体数量化并融入回归模型呢?这类问题在工商管理领域有着重要的实用价值。将属性信息转换为定量数据的最简单方法