第二讲多元回归与建模案例

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第二讲多元回归与建模2研究多个变量间的关系,因变量如何受到多个自变量的影响,用多个自变量预测因变量的值。例:超市中商品的价格、摆放位置、促销手段如何影响销售量;如何用客户的个人资料(职业、收入、家庭成员人数、婚姻状况、是否有抵押等)进行信用预测;连锁旅店的利润主要受哪些因素影响;如何预测每个客户的流失概率;如何在达到环保标准的前提下找到最佳生产条件;如何给二手车定价;如何预测故障维修时间;如何定新员工的薪水及解聘员工的补偿金。3ppippppxbxbxbbypixxxNyNxxxy22110222110222110ˆ.,1,0,),(~),,0(~估计的回归方程是使用最小二乘方法估计那么假定误差项多元回归模型4X2X1Yi5认识R2总变差的分解:SST=SSR+SSE;判定系数:R2=SSR/SST;多重相关系数R;调整(修正)的判定系数:1122)1(1pnnRRAdj6对回归方程的检验问题:因变量和所有自变量的集合之间是否存在显著的关系?检验假设拒绝域0:210pH)1,()1/(/pnpFFpnSSEpSSRMSEMSR7对回归系数的检验检验假设检验统计量拒绝域0:0:10iiHH的标准误差是其中ibsbibstiibi,)1()1(2/2/pnttpnttii或者8例:巴特勒运输公司巴特勒运输公司的主营业务地域为本地,为了建立更好的工作日程表,经理们计划为他们的驾驶员估计日常行驶时间。9MilesTraveledNumberofDeliveriesTravelTime(hours)10049.35034.810048.910026.55024.28026.27537.46546.09037.69026.1100.02.04.06.08.010.0020406080100120MilestraveledTraveltime回归统计MultipleR0.814906RSquare0.664071AdjustedRSquare0.62208标准误差1.001792观测值10方差分析dfSSMSFSignificanceF回归分析115.871315.871315.814580.004080177残差88.0286961.003587总计923.9Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept1.2739131.4007450.9094540.389687-1.956211714.504038-1.956214.504038MilesTraveled0.0678260.0170563.9767550.004080.0284956910.1071560.0284960.107156回归统计MultipleR0.950678RSquare0.903789AdjustedRSquare0.8763标准误差0.573142观测值10方差分析dfSSMSFSignificanceF回归分析221.6005610.8002832.878370.00027624残差72.2994430.328492总计923.9Coefficients标准误差tStatP-valueLower95%Upper95%Intercept-0.86870.951548-0.912940.391634-3.1187526831.38135MilesTraveled0.0611350.0098886.1823970.0004530.0377520410.084517NumberofDeliveries0.9234250.2211134.1762510.0041570.4005754891.44627513回归系数的解释b1=0.0611当送货次数不变时,行驶里程每增加1英里,行驶时间期望的估计值增加0.0611小时。b2=0.9234当行驶里程不变时,送货次数每增加1次,行驶时间期望的估计值增加0.9234小时。DelivMilesy9234.00611.08687.0ˆ14例:房屋售价一个房地产经纪人认为房屋的售价可由房屋的面积、卧室的个数和批量的大小来预测。他随机选取了100座房屋并收集数据如下:PriceBedroomsHSizeLotSize124100312903900218300420806600117800312503750........15RegressionStatisticsMultipleR0.74833RSquare0.559998AdjustedRSquare0.546248StandardError25022.71Observations100ANOVAdfSSMSFSignificanceFRegression37.65E+102.55E+1040.72694.57E-17Residual966.01E+106.26E+08Total991.37E+11CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept37717.5914176.742.6605260.0091459576.96365858.23Bedrooms2306.0816994.1920.3297140.742335-11577.316189.45HSize74.2968152.978581.4023930.164023-30.8649179.4585LotSize-4.3637817.024-0.256330.798244-38.156229.4286216多重共线性问题在多元线性回归模型中,多重共线性性(Multicollinearity)是指自变量之间存在线性相关的关系。多重共线性存在时会使得系数估计的标准误差增大,从而使得相应的t统计量减小和p值增加。我们将无法确定任一自变量对因变量的单独影响。单个系数的符号可能与实际不符。17识别多重共线性性自变量的相关矩阵:样本相关系数的绝对值大于0.7。方差膨胀因子(VarianceInflationFactors,简记作VIF):刻画了相比多重共线性不存在时回归系数估计的方差增大了多少。VIF越大说明多重共线性问题越严重。经验法则:VIF10自变量矩阵X,X’X有很小接近于0的特征根称为容限。平方。回归模型的性对模型中其余自变量线是自变量其中jjjjjjTOLRxRTOLRVIF2211118PriceBedroomsHSizeLotSizePrice1Bedrooms0.6454111HSize0.7477620.8464541LotSize0.7408740.837430.993615119例:Johnson过滤水股份公司Johnson公司对遍步南弗罗里达州的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。他们收集的数据中包含最近一次维修至今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。你能够建立起一个预测方程吗?20定性的自变量引入虚拟变量(DummyVariable)如何定义虚拟变量?例:x=0(女性),x=1(男性)x=0(机械类),x=1(电子类)如何解释回归模型?xyE10)(21建立维修时间的回归方程二元回归方程解释你得到的回归方程!112213876.09305.0ˆ:3876.01932.2ˆ:859.02627.13876.09305.0ˆxyxyRxxy机械类电子类蓝色为电子类,红色为机械类23诊断你的模型:残差分析残差分析不仅被用于判断你对模型中误差项所设的假定是否符合,而且还可以检测出异常值和有影响的点。残差图:由横轴为自变量或者因变量的预测值、纵轴为残差或者学生化残差组成的散点图。24识别影响点、异常值识别影响点的方法:杠杆率比较大(大于3(p+1)/n),或者Cook距离D比较大(1).检测异常值的方法:散点图;利用学生化标准残差基本服从标准正态分布来检测(落在2个标准差之外时)。识别之后:建议应该同时报告包含影响点和除去影响点的两种回归结果。25其它的内容使用残差检验误差项的正态性;使用残差来分析误差项的独立性:Durbin-Watson统计量d残差对时间的散点图26Durbin-Watson检验则存在自相关性。或如果的取值区间为,4].4,0[)(0:),0(12221021tLLnttnttttttdddddeeedHNiidzz27Howdoestheweatheraffectthesalesofliftticketsinaskiresort?Dataofthepast20yearssalesoftickets,alongwiththetotalsnowfallandtheaveragetemperatureduringChristmasweekineachyear,wascollected.ThemodelhypothesizedwasTICKETS=0+1SNOWFALL+2TEMPERATURE+Regressionanalysisyieldedthefollowingresults:•ExampleSUMMARYOUTPUTRegressionStatisticsMultipleR0.3464529RSquare0.1200296AdjustedRSquare0.0165037StandardError1711.6764Observations20ANOVAdfSSMSFSignif.FRegression26793798.23396899.11.15940.3372706Residual17498072142929836.1Total1956601012CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept8308.0114903.72859.19303915E-086401.308310214.715Snowfall74.59324951.5748291.44631110.1663-34.22028183.40678Tempture-8.75373819.704359-0.4442540.6625-50.3263632.818884Themodelseemstobeverypoor:•Thefitisverylow(R-square=0.12),•Itisnotvalid(Signif.F=0.33)•Novariableissignificant2901234567-2.5-1.5-0.50.51.52.5MoreTheerrorsmaybenormallydistributed-4000-3000-2000-10000100020003000750085009500105001150012500-4000-3000-2000-100001000200030000510152025ResidualovertimeResidualvs.predictedyTheerrorsarenotindependentTheerrorvarianceisconstantThemodifiedregressionmodelTICKETS=0+1SNOWFALL+2TEMPERATURE+3YEARS+•Alltherequiredconditionsaremetforthismodel.•ThefitofthismodelishighR2=0.74.•Themodelisuseful.SignificanceF=5.93E-5.•SNOWFALL

1 / 56
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功