数据分析与挖掘DataAnalysis&Mining某车企汽车年销量预测案例2019/8/15信息技术教学中心1学习要点•分析方法:-散点图、序列图、线性回归、曲线拟合、非线性回归•分析过程–转换:计算变量、个案排秩–表:设定表–统计图:直方图、散点图、序列图–描述统计:序列图–比较均值:均值–回归:线性、曲线估计、非线性回归2019/8/15信息技术教学中心2案例背景现有某汽车企业1988——2001年的汽车销售量数据,如下表所示。为了制定企业的长期市场发展计划,管理者希望能够预测出至2011年的汽车销量。2019/8/15信息技术教学中心3年份19881989199019911992199319941995199619971998199920002001销量/万辆65595171106130135145146157160183208236分析思路与商业理解本研究的制约因素①可用信息量少②未来趋势的变化基于以上原因,预测2~3年内的汽车销量应当是本案例更为合适的研究目标。2019/8/15信息技术教学中心4数据理解由于本数据比较简单,因此数据理解的重点可用放在两变量间数据关联趋势的了解上,因此首先使用散点图对数据的变化规律进行观察,步骤如下:①选择“图形”——“图表构建程序”菜单命令②将散点图图标拖入画布③将year拖入X轴框,sales拖入Y轴框④确定2019/8/15信息技术教学中心5数据理解扩展阅读简单地说,散点图在用于回归分析前的预分析时,可提供如下三类关键信息①变量之间是否存在数量关联趋势。②如果存在关联趋势,那么是线性的,还是曲线的③数据中是否存在明显偏离散点图主体较远的散点,它们是否可能在建模时成为强影响点。2019/8/15信息技术教学中心6数据理解2019/8/15信息技术教学中心7数据理解根据散点图的显示1988~1992年的数据出现异常,因此将在后面建模时把其删除,不再进入后续分析。2019/8/15信息技术教学中心8筛选数据并进行变量转换筛选数据:①数据——选择个案②选择“如果条件满足”——如果——输入“year=1993”③继续④输出——删除未选定个案⑤确定变量转换:①转换——计算变量②目标变量:time③数字表达式:$casenum④确定2019/8/15信息技术教学中心9线性回归模型简介线性回归指的是所有自变量对因变量的影响均呈线性关系,设希望预测因变量y的取值,诸影响因素为自变量𝑥1、𝑥2、…𝑥𝑚,则自变量和因变量间存在如下关系:𝑦=a+𝑏1𝑥1+𝑏2𝑥2+…..+𝑏𝑚𝑥𝑚2019/8/15信息技术教学中心10回归模型的适用条件线性趋势:自变量和因变量的关系是线性的,如果不是,则不能采用线性回归来分析,可以通过散点图来判断。独立性:可表述为因变量y的取值相互独立,之间没有联系。反映到模型中,实际上就是要求残差间相互独立,不存在自相关,否则应当采用自回归模型来分析。这可以用D-W统计量来考察,另外一种常用的工具为自相关和偏相关图,它们比D-W统计量更为直观和敏感。正态性:就自变量的任何一个线性组合,因变量y均服从正态分布。方差齐性:就自变量的任何一个线性组合,因变量y的方差均相同,实质上就是要求残差的方差齐性。2019/8/15信息技术教学中心11注意:本案例使用回归模型对序列数据进行分析,数据的顺序代表了时间变化的方向,相邻数据间非常容易出现相关性。因此在本案例分析时残差有无相关时必须加以考察的。如果模型的决定系数非常高,自相关趋势非常弱,则问题影响不大,否则应当考虑使用自回归模型来分析。2019/8/15信息技术教学中心12变量变换后拟合线性回归模型本案例需要拟合曲线回归模型,但统计学上发展最早最成熟的是线性回归模型,有无办法将其方法体系利用到曲线回归方面去呢?答案非常简单,只要可能通过变量变换,将曲线方程变换为直线方程的形式,即可利用变换后的变量来进行“线性”模型的拟合。拟合方程:𝑌=𝑏0+𝑏1X+𝑏2𝑋22019/8/15信息技术教学中心13变量变换转换——计算变量Time2=time*time2019/8/15信息技术教学中心14二次方曲线直线化拟合分析——回归——线性将sales选入“因变量”列表框,将time,time2选入“自变量”列表框确定2019/8/15信息技术教学中心150~1取值,越接近1越好标准回归系数分析结果2019/8/15信息技术教学中心16通过系数表可以写出回归方程如下:销量=138.976-5.998*time+1.821*time2当time=0,即时间为1993-1=1992时,销量的模型估计值为138.976,显然这个数值和实际值差的有点远,因为1993年之前的数据趋势并不服从现在拟合的模型,所以这个估计值没有实际的意义。销量和时间的一次项负相关,二次项正相关。模型拟合效果的判断预测模型建立后,模型的预测精度究竟如何是非常关心的问题,除了使用回归模型中的一些诊断指标外,也可以使用针对时间序列预测的一些专门指标加以判断。①残差独立性检验:使用“统计量”子对话框中,选中“Durbin-Watson”统计量复选框,结果如下:一般地,若自变量数少于4个,统计量大于2,基本上肯定残差间相互独立。2019/8/15信息技术教学中心17取值1~4之间,大于上界则说明残差独立,低于下界则说明相互关联模型拟合效果的判断②残差分布的图形观察在“绘制”子对话框中,选中“直方图”和“正态概率图”复选框。结果如下:2019/8/15信息技术教学中心18模型拟合效果的判断2019/8/15信息技术教学中心19模型拟合效果的判断③绘制残差序列图A.在“保存”子对话框中,选中“标准化残差”复选框B.确定C.依次单击“分析”——“预测”——“序列图”D.变量框:选入ZRE_1E.时间轴标签框:选入yearF.确定2019/8/15信息技术教学中心202019/8/15信息技术教学中心21存储预测值和区间估计值本案例建立模型,不是为了找到年代对销量的影响,而是为了对因变量进行预测,因此需要在数据集中计算出预测值、个体参考值范围等。在“保存”子对话框中,预测值、残差、预测区间等都可以作为新变量存储在数据集中。本例需要预测区间和预测值,相应的操作如下:①在数据集中新增三条记录,变量id分别等于10,11,12②重复执行“回归”对话框③“保存”子对话框,选中“未标准化预测值”、“单值预测区间”两个复选框。2019/8/15信息技术教学中心22用曲线估计过程同时拟合多个曲线模型依次单击“分析”——“回归”——“曲线估计”“因变量”列表框:sales“自变量”列表框:time模型:选中二次项、立方和指数分布选中“显示ANOVA表格”复选框确定2019/8/15信息技术教学中心23分析结果2019/8/15信息技术教学中心24三次方2019/8/15信息技术教学中心25指数2019/8/15信息技术教学中心26拟合曲线比较图2019/8/15信息技术教学中心27模型拟合效果的判断方法一、存储残差值先将模型的残差存为新变量供分析中使用,操作如下:①进入“保存”子对话框②“保存变量”框:选中“残差”③继续再次运行曲线拟合过程,此时会生产ERR_1~ERR_3共3个新变量,分别代表二次、三次和指数模型的误差项。为了便于观察可以将他们的变量名标签分别改为二次方程、三次方程和指数方程。2019/8/15信息技术教学中心28观察模型误差项的序列图首先绘制3个模型误差项的序列图,以观察随着年代的变化,相应预测误差的变动趋势。如下:A.依次单击“分析”——“预测”——“序列图”B.变量框:选入ERR_1~ERR_3C.时间轴标签框:选入yearD.确定2019/8/15信息技术教学中心29模型的预测根据上面的讨论,确定应当使用三次方模型进行预测,并且预测的长度在3年以内比较恰当,为此采取和线性回归相同的操作:在数据集中新增三条记录,变量id分别等于10,11,12,然后再曲线拟合过程中操作①依次单击“分析”——“回归”——“曲线估计”②“因变量”列表框:sales③“自变量”列表框:time④模型:立方⑤“保存”子对话框⑥“保存变量”:选中“预测值”和“预测区间”⑦确定2019/8/15信息技术教学中心30利用非线性回归进行拟合非线性回归模型在SPSS中可以采用NLR和CNLR两个过程拟合,前者用于一般的非线性模型,后者用于带约束条件的非线性模型拟合2019/8/15信息技术教学中心31构建分段回归模型1993——1998年基本呈线性趋势,然后在1998——2001年呈现另外一种线性趋势的模型,用公式表达如下:Sales=𝑏01+𝑏02*time1993=year1998Sales=𝑏11+𝑏12*timeyear=1998非线性回归模型中可以直接对该分段模型进行拟合,唯一的难点就是模型表达式只能写在一个公式里,具体如下:Sales=(year1998)*(𝑏01+𝑏02*time)+(year=1998)*(𝑏11+𝑏12*time)2019/8/15信息技术教学中心32SPSS中的操作如下:①依次单击“分析”——“回归”——“非线性”②“因变量”列表框:sales③“自变量”列表框:输入Sales=(year1998)*(𝑏01+𝑏02*time)+(year=1998)*(𝑏11+𝑏12*time)④参数:在子对话框中分别将b01、b02、b11和b12的初始值设为1⑤确定2019/8/15信息技术教学中心33分析结果2019/8/15信息技术教学中心34不同模型效果比较进入“保存”子对话框选中“预测值”确定依次单击“分析”——“预测”——“序列图”“变量”列表框:选入三次方曲线的预测值FIT_1、LCL_1和UCL_1,以及非线性模型的预测值PRED_“时间轴标签”列表框:选入year确定2019/8/15信息技术教学中心35项目总结与讨论在本案例中,基于所有可用的历史销售数据,对未来一定时期内的汽车年销量进行了预测,分析结果显示,过去几年间销量呈加速上升的曲线趋势,通过对二次曲线,三次曲线和指数曲线的拟合,发现三次曲线对历史数据的拟合效果好。因此用三次曲线模型进行了未来3年的销量预测,并给出了相应的销量预测区间。2019/8/15信息技术教学中心36