数据、模型与决策丁邦俊13818068959dingbangjunmba@163.com第六讲回归模型一名优秀的管理者具有的最重要的技能之一就是洞察商务数据的趋势以及基于这种趋势进行精确预测的能力。依据历史数据及行业趋势,预测销售额、盈利、成本、金融工具和金融产品的价格走势本章介绍一种强有力的基于数据的线性回归预测模型,其目标是建立一个变量(Y=生产成本)与其它相关变量(X1=劳动时间、X2=设备支出、X3=人力成本等)之间变化关系的具体公式。需要掌握Excel或SPSS软件。回归模型例广告支出与销售额假设John对销售额与广告效果的分析感兴趣,他正在考虑把Apple-Glo产品引进到两个新区域,其中一个区域的广告费用高达200万美元,而另一个区域为150万美元,John想要预测Apple-Glo产品在这两个区域中每个区域第一年销售额的期望值。JohnBrode是J&T产品的营销经理,这是一家大型家用产品制造商,公司推出一种Apple-Glo的新产品,它是一种安全的家用清洁剂该产品已经被引进到东北销售区域,并在最近两年中花费了大量广告活动费用,见下表。广告费用与销售额数据日期区域广告支出(百万)Xi第一年销售额(百万)YiJan-94缅因州1.8104.0Feb-94新罕布什尔州1.268.0Mar-94佛蒙特州0.439.0Apr-94马萨诸塞州0.543.0May-94康涅狄格州2.5134.0Jun-94罗德岛2.5127.0Jul-94纽约州1.587.0Aug-94新泽西州1.277.0Sep-94宾夕法尼亚州1.6102.0Oct-94特拉华州1.065.0Nov-94马里兰州1.5101.0Dec-94西弗吉尼亚州0.746.0Jan-95弗吉尼亚州1.052.0Feb-95俄亥俄州0.833.0广告费用与销售额数据John想了解如下问题:第一年的广告费用和第一年的销售额之间的关系如何?存在与这两个数量值有关的等式吗?如果广告支出为150美元或200美元,那么第一年的销售额的期望值分别为多少?关于销售额估计的可靠性是多少?预测效果如何?广告费用与销售额数据利用Excel绘图功能,画出下列图形销售额与广告费的关系0.050.0100.0150.00.00.51.01.52.02.53.0广告费支出销售额广告费用与销售额数据利用Excel回归分析功能,得到预测方程销售额与广告费的关系y=48.597x+13.824R2=0.92960.020.040.060.080.0100.0120.0140.0160.00.00.51.01.52.02.53.0广告费支出销售额初步结论预测方程为Y=48.597x+13.824;得到x=150万,Y=86.72万;x=200万,Y=111.02万。R2=0.9296,得出两个结论:一是模型拟合数据的效果是92.96%,话句话说,模型在多大程度上解释了数据呢,答案是92.96%,不能解释的部分为7.04%;另一个结论是,R=0.964,说明广告支出与销售额关系非常密切。一元回归理论对于一个因变量和一个自变量,先考察它们的相关系数r,在Excel中的函数是corr(X,Y)只有相关系数足够大,才去研究它们回归关系回归这个术语是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。趋向中间高度的回归孩子身高与父母身高的相关系数有多大男孩成年身高=(父身高+母身高+13)÷2±7.5厘米女孩成年身高=(父身高+母身高-13)÷2±6.0厘米相关系数为0.75两种趋势的回归模型一元线性回归模型一个自变量的简单线性回归模型可表示为y=b0+b1x+e模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差e是随机变量,通常假设服从正态N(0,σ2)b0和b1称为模型的参数最小二乘法最小niiniieyybbQ121210)ˆ()ˆ,ˆ(最小二乘法的几何解释最小二乘解Excel-数据分析-回归回归统计MultipleR0.964RSquare0.930AdjustedRSquare0.924标准误差9.106观测值14方差分析dfSSMSFSignificanceF回归分析1.0013130.9413130.94158.352.8433E-08残差12.00995.0682.92总计13.0014126.00Coefficients标准误差tStatP-valueLower95%Upper95%Intercept13.825.582.480.031.6725.98XVariable148.603.8612.580.0040.1857.01输出结果解读相关系数r=0.964,已经足够大,说明X与Y之间有很强的相关性,可以研究回归关系;误差分布N(0,σ2)中的σ=9.106;模型检验:F对应的P值=2.84×10-80.05,应该拒绝原假设(注意:原假设是所以系数全为0);系数检验:两个P值分别是0.03和0,说明截距和斜率都显著不等于0;回归方程为Y=13.82+48.6x最后截距的95%区间估计是[1.67,25.98];斜率的95%区间估计是[40.18,57.01]。多元回归模型多个自变量的线性回归模型可表示为y=b0+b1x1+b2x2+…+bkxk+e模型中,y是xi的线性函数(部分)加上误差项线性部分反映了由于xi的变化而引起的y的变化误差e是随机变量,通常假设服从正态N(0,σ2)b0、b1、b2、…,bk称为模型的参数.最小二乘法最小二乘法的几何解释最小二乘解),,2,1(00ˆˆ000kibQbQiibbibb多元线性回归模型的最小二乘解满足该解Excel会自动给出。一个二元回归的例子Excel输出结果MultipleR0.968RSquare0.937AdjustedRSquare0.919标准误差2.010观测值10方差分析dfSSMSFsig回归分析2423.02211.5152.356.16117E-05残差728.284.04总计9451.3Coefficients标准误差tStatP-valueLower95%Upper95%Intercept-38.8258.479-4.5790.003-58.874-18.777XVariable11.3410.1439.3550.0001.0021.680Excel输出结果解读回归模型显著性检验回归模型诊断模型的线性性:通过R2的大小检查较高的R2表示线性假设是合适的。y=-0.1541x+7.0346R2=0.0539,R=-0.232012345678910024681012y=1.3239x+0.6824R2=0.9289,R=0.964024681012141618024681012不合适合适回归模型诊断-3-2.5-2-1.5-1-0.500.511.520102030405060误差的正态性:残差的直方图是不是正态不合适合适00.20.40.60.811.21.41.60102030405060回归模型诊断XVariable1ResidualPlot-150-100-500501001500102030405060XVariable1残差XVariable2ResidualPlot-150-100-5005010015001020304050XVariable2残差XVariable1ResidualPlot-505051015XVariable1残差异方差性:残差与每个自变量的散点图不合适合适XVariable1ResidualPlot-200204005101520XVariable1残差不合适合适回归模型诊断自相关性-20-10010203005101520观察样本数残差存在自相关不合适-3-2.5-2-1.5-1-0.500.511.50510152025不存在自相关合适回归模型诊断多重共线性分析相关系数表X1与x3存在共线性X1X2X3X4不良贷款率X11X20.678081X30.848420.585551X40.779600.471930.746481不良贷款率0.828640.741960.684640.499981银行不良贷款率分行编号各项贷款余额(x1)本年累计应收贷款(x2)基本建设贷款项目个数(x3)本年完成固定资产投资额(x4)不良贷款(y)1.004.214.255.0032.440.582.006.9612.4016.0056.840.713.0010.814.8017.0046.042.984.005.054.5010.009.082.025.0012.4810.3419.0039.534.906.001.011.351.001.351.71..................22.005.982.3510.0027.810.9823.006.856.4414.0042.460.7524.0012.279.8916.0024.834.4825.006.397.5110.0060.721.99银行不良贷款率首先看看相关系数表列1列2列3列4列5列11列20.678081列30.848420.585551列40.779600.471930.746481列50.828640.741960.684640.499981银行不良贷款率其次,分析是否存在多重共线性,X1与X3可以互相替代,X1与X4也是。第三,Y与各个变量的相关性的强弱分析,发现Y与X1相关性最高,其次是X2第四,若建立一元回归,应该建立Y与X1的回归方程;若建立二元回归,应该建立Y与X1、X2的回归方程;若建立三元回归,应该建立Y与X1、X3、X4的回归方程。银行不良贷款率通过分析,最佳模型是建立Y与X1、X2的二元回归课后讨论题案例分析9:美国国家税务局税额数据分析谢谢!