第六讲线性回归模型与预测主要内容简单线性回归多元线性回归交互作用非线性回归EMBA-管理决策与统计分析6-2信号与噪声建立模型来描述一个因变量和一个(单)或更多的(多个)自变量之间的关系,所有的变量是可数的,例如:CollegeGPA=a+b*SAT+c*HSGPA+d*SchoolType–横截面数据–时间序列数据回归分析EMBA-管理决策与统计分析6-3系统性风险–市场波动可以解释的股票价格变化–用β测量-回归直线的斜率–β=1:完美匹配市场运动–β1:股票比市场波动小–β1:股票比市场波动大回归分析和投资风险EMBA-管理决策与统计分析6-4–相关关系的测量–标准化的方差–相关系数:-1r1相关系数yxyxxyss)y,xcov(rrr≈1r≈-1r≈0r=?相关系数(和协方差)测量只适用于直线关系r的大小衡量(线性)拟合的程度,不是直线的斜度EMBA-管理决策与统计分析6-5案例:HomeMarketValueEMBA-管理决策与统计分析6-6两条可能的拟合线EMBA-管理决策与统计分析6-7回归直线的估计真实的回归曲线(未知的):Y=b0+b1X+e估计的回归曲线:Y=b0+b1X观测误差(Errors/Residuals)eiYi–Yi=Yi–(b0+b1Xi)EMBA-管理决策与统计分析6-8最小二乘(LeastSquares)估计+niiiXbbY1210])[(21211XnXYXnYXbniiniiib0=Y-b1XminimizeEMBA-管理决策与统计分析6-9Excel工具:TrendlineEMBA-管理决策与统计分析6-10Excel工具:线性回归CorrelationcoefficientSYXb0b1p-valueforsignificanceofregressiont-testConfidenceintervalforslopeEMBA-管理决策与统计分析6-11决定系数R2:自变量解释的因变量变化的比例(回归模型)0R21R2的平方根是样本相关系数r(这里r的符号和拟合线的方向是一致的)决定系数(CoefficientofDetermination)相关系数SYXEMBA-管理决策与统计分析6-12SYX=回归曲线残差的标准误差的无偏估计衡量曲线数据残差的散度残差的标准差相关系数SYXEMBA-管理决策与统计分析6-13回归系数的t检验niiYXXXSbt1211)(/bwithn-2degreesoffreedom检验H0:回归系数=boorb1vs.H1:回归系数boorb1t检验斜率的置信区间EMBA-管理决策与统计分析6-14残差(Residuals)EMBA-管理决策与统计分析6-15置信区间与预测区间xpxy10ˆˆˆbb+yxxEMBA-管理决策与统计分析6-16线性–检查数据的散点图或冗余度图正态分布的残差:对应每一个X都是均值为0及方差为常数的正态分布–检查标准化的残差的直方图或使用拟合优度测试方差齐次性:对于每个自变量值的回归曲线都具有恒定方差–通过绘制残差图来检查并且寻找不同值的X的方差的不同没有自相关性:残差应该独立于每个自变量的值。当自变量是时间变量时尤其重要回归模型的假设EMBA-管理决策与统计分析6-17线性假设:违反假设:外推时会产生较大的误差检测:绘制真实值和预测值的点状图进行比较,点应该围绕在一条对角线左右纠正:数据变换(也许是log变换)如果假设不满足怎么办?EMBA-管理决策与统计分析6-18正态性:违反:极少的值影响了正态分布的假设检测:正态概率图纠正:当其他问题被纠正也就相应地会纠正很多如果假设不满足怎么办?EMBA-管理决策与统计分析6-19OKHeteroscadastic方差齐性违反:置信区间太大检测:残差随着时间或预测值的变化而越来越大纠正:Log变换如果假设不满足怎么办?EMBA-管理决策与统计分析6-20独立性:违反:没有提高的空间检测:用自相关图和Durbin-Watson统计量–D1表明自相关–D1.5表明没有自相关–D2.5表明负自相关纠正:如果正相关,有滞后效应或引入新的自变量。如果负相关,数据可能被过分差分了如果假设不满足怎么办?niiniiieeeD12221)(EMBA-管理决策与统计分析6-21回归的理论基础YY的最好估计是平均值:与X值无关AmeasureoftotalvariationisSST=(Yi-Y)2没有解释的Y的观测值与预测的不同XiYiEMBA-管理决策与统计分析6-22回归的理论基础ObservedvaluesYiFittedvaluesYiXiYi回归无法解释的变差,Y-YFittedlineY=b0+b1XY可以由回归来解释的变差,Y-YEMBA-管理决策与统计分析6-23SST=(Yi-Y)2方差分析ANOVA=(–Y)2+(Y-)2YˆYˆ=SSR+SSE可解释的变差不可解释的变差EMBA-管理决策与统计分析6-24F=MSR/MSE信噪比(SNR)EMBA-管理决策与统计分析6-25回归显著性检验如果F临界值(在输出中没有提供),b10是可能的,或者回归线是显著的SignificanceF就是上述检验的p-值信噪比检验H0:b1=0H1:b10EMBA-管理决策与统计分析6-26多元线性回归模型:Y=b0+b1X1+b2X2+...+bkXk+e预测模型:Y=b0+b1X1+b2X2+...+bkXk–b的值被称为偏回归系数.多元线性回归模型EMBA-管理决策与统计分析6-27案例:CollegesandUniversitiesEMBA-管理决策与统计分析6-28MedianSATAcceptanceRateExpenditures/StudentTop10%HSGraduation%MedianSAT1.00AcceptanceRate(0.60)1.00Expenditures/Student0.57(0.28)1.00Top10%HS0.50(0.61)0.511.00Graduation%0.56(0.55)0.040.141.00案例:CollegesandUniversitiesEMBA-管理决策与统计分析6-29类似于单个自变量情况–R2(多元决定系数)值.534表明大约变量的53%在变化率被自变量的变化所解释。–调整的R2考虑了样本容量和自变量数目。用于比较包含不同自变量组的模型。如何解释?EMBA-管理决策与统计分析6-30–H0:b1=b2=…=bk=0–H1:至少一个bj不为零方差分析(ANOVA)注意:残差的自由度为n–k–1,回归模型的自由度为kEMBA-管理决策与统计分析6-31残差图EMBA-管理决策与统计分析6-32H0:bj=0vs.H1:bj0t=bj/标准差,自由度n–k–1置信区间:bjtn-k-1标准差回归系数显著吗?EMBA-管理决策与统计分析6-33多重共线性:当两个或两个以上自变量包含更高层次的共同信息。自变量相互之间可以很好预测彼此,从而在回归模型中难以解释回归系数,导致不正确的统计结论。影响:回归系数的估计不稳定,取决于模型中包含了哪些自变量,回归系数的符号可能与期望相反,并且p值被虚高了。多重共线性问题EMBA-管理决策与统计分析6-34从相关系数阵判断多重共线性有潜在的多重共线性问题。多重共线性可以由方差膨胀因素(VIFs)计算。EMBA-管理决策与统计分析6-35方差膨胀因素,VIF=如果没有多重共线性,VIF=1实践中,VIF应该不会大于5多重共线性的度量211jrEMBA-管理决策与统计分析6-36VIFResultsEMBA-管理决策与统计分析6-37年龄和MBA学位哪个影响决定了员工的工资?Y=b0+b1X1+b2X2+eY=工资salary,X1=年龄age,X2=MBA学位(0=无;1=有)带有属性变量的回归模型:EmployeeSalariesEMBA-管理决策与统计分析6-38Excel的回归结果EMBA-管理决策与统计分析6-39Salary=893.59+1044.15Age+14767.23MBA–NoMBA:Salary=893.59+1044.15Age–MBA:Salary=15660.82+1044.15Age模型表明在两组中年龄对薪水的增长幅度是一样的。然而,拥有MBA学位的人也许随着年龄的增长能挣得更多的薪水。换言之,Age的斜率也许依赖于MBA的值。这样的依赖性叫作交互作用。Excel的回归结果Y=b0+b1Age+b2MBA+b3Age*MBA+e交互作用模型交互作用的回归结果Salary=3323.11+984.25Age+425.58MBA*Age–NoMBA:Salary=3323.11+984.25Age+425.58(0)*Age=3323.11+984.25Age–MBA:Salary=3323.11+984.25Age+425.58(1)*Age=3323.11+1409.83Age最终结果在大数据时代,庞杂的数据中有太多的干扰因素会模糊我们对那些真正值得注意的关系的看法只有处理得当,回归分析能够排除其他因素,辅助我们认清真正的关系–处理得当:回归分析不是技术性问题,今天的统计软件制造了太多的垃圾,而不是知识–辅助:我们从一个样本得到的结论真的可以推广到其它样本吗?大数据时代的回归模型用线性模型来分析非线性关系相关关系并不等同于因果关系–在过去20年里激增的中国人均收入和上升的美国儿童自闭症确诊率正相关,且具有显著统计意义。所以如果中国出现经济衰退,美国的自闭症儿童会减少(“伪因果关系“)变量遗漏偏差–常打高尔夫易患心胀病、癌症和关节炎?年龄变量被忽视高度相关的解释变量(数据矿)–在H0成立的前提下,如果某个概率小于或等于0.05的偶然结果真的发生了,我们就可以推翻H0。–加入我们进行20次试验,或在某个回归模型中加入20个无关变量,那么一般也会出现一个具有统计意义的伪发现(学术垃圾)回归模型的陷阱事实上,工资收入会受到教育、工作经验、行业等等的影响。不好的回归模型(R2过低)可能会得出错误的结论。三位经济学家分析了2500名ChicagoBooth商学院的MBA毕业生的收入轨迹,发现毕业时男女生起薪大致相同(13万vs.11.5万),10年后女性(24.3万)比男性(44.2万)工资低45%。另一个大型样本中(18万名MBA毕业生),女性比男性收入低29%。有性别歧视吗?变量的重要性–另一个MBA工资的案例当这三位经济学家进一步考虑更多的变量时,发现–在校期间更多男性比女性选修了金融相关的课程,成绩平均分也高于女性,加入这一因素使得无法解释的R2成分降到19%–再将毕业后的工作经历、不在公司的时间考虑进去,无法解释的R2成分降到9%–继续加入其它与工作特点有关的解释变量,如雇主类型和加班时长,无法解释的R2成分进一步降到不足4%事实上,收入差距有99%可以由非歧视性因素解释,只有1%与歧视相关变量的重要性–另一个MBA工资的案例因素之间的交互作用(X1*X2)或者非线性变量(X22)并不是非线性模型;线性回归方法仍然可用,因为模型的参数是线性的:Y=b0+b1X1+b2X2+b3X1X2+b4X32+e如果参数是非线性的(如Y=aXb),必须试着转化模型或者使用非线性回归技术。非线性模型(NonlinearModels)EMBA-管理决策与统计分析6-48案例:BeverageSales残差图建议非线性性EMBA-管理决策与统计分析6-49非线性回归Y=b0+b1X+b2X2+eEMBA-管理决策与统计分析6-50变量变换1400012000100008000600040002000025020015