第一节概述一、基本任务和意义统计预测(forecasting)应用最广泛的预测方法,对大量的数据资料进行统计分析,以求得比较准确的预测结果的理论和方法。统计预测的作用为管理决策提高科学依据;为制定政策、编制计划和检查政策、计划的执行情况提供科学依据;为统计工作的本身发展开拓了一个新的领域。局限性:不能过多外延,影响预测的主观、客观因素较多。二、统计预测的分类按预测方法分:定性预测与定量预测按预测时间分:短期预测:月、季、1年中期预测:3~5年长期预测:5~10年或以上1、定性预测依据预测者的直观判断能力对预测事件的未来状况进行直观判断的方法。主要是对未来状况作性质上的预测,而不着重考虑其量的变化。主要有:头脑风暴法、特尔菲法Delphi(专家调查法)、主观概率法、交叉概率法等。德尔菲法Delphi这是由美国兰德公司和道格拉斯公司协作发展的一种专家预测方法。它通过寄发调查表的形式征求专家的意见:专家在提出意见后以不记名的方式反馈回来;组织者将得到的初步结果进行综合整理,然后反馈给各位专家,请他们重新考虑后再次提出意见;经过几轮的匿名反馈过程,专家意见基本趋向一致;组织者依此得出预测结果。2、定量预测方法根据历史数据可统计资料,运用数学或其它分析的方法所建立的模型计算预测对象在未来可能表现的数量。(1)时间序列法:确定性时间序列预测,如移动平均法(一、二次),指数平滑法(一、二、三次),季节周期法随机性时间序列预测,如平稳时间序列预测(ARMA,ARIMA等),回归预测(线性、非线性、自回归预测等)马尔柯夫(Markov)预测系统动力学(S—D)预测(2)模糊预测(3)灰色系统预测三、预测步骤确定预测目标数据收集与预处理预测方法选择与评价建立预测模型利用预测模型作预测计算结果分析与检验评价满意否结束NY预测结果的检验评价相互检验:使用不同预测方法对同一对象进行预测,比较各自的预测误差。对比检验:用预测结果与别人的预测结果进行比较。专家检验:通过专家对结果的咨询,来评价其准确度。第二节指数平滑方法时间序列定义:一组按时间先后顺序排列的数据序列称为时间序列,用符号{y1,y2,…yT}表示,此中T称为时间序列的长度。分析要求:序列的平稳即:1.均数不随时间变化(差分)2.方差不随时间变化(对数和平方根转换)3.无周期性变化;(季节差分)4.自相关系数只与时间间隔有关,于所处的时间无关。指数平滑方法利用本期实际数与本期预测数。以平滑系数加权计算指数平滑平均数,作为下期预测数。一般适用于短期和近期预测。1、一次指数平滑第t时刻的实际值第t时刻的预测值平滑系数,0≤α≤1反复递推得,ty1111tttyyy1ty1111111111tttttyyyyy值的选择值实际上是t期实际值和预测值的比例分配。其确定,是指数平滑法预测的关键。数据呈水平波动发展,于其无关;长期趋势比较稳定,取较小值0.05~0.20;呈迅速明显变动趋势,取较大值0.3~0.7或者选取不同值,分别预测,根据结果选取符合实际的值。初始值的估计当数据较多的时候,初始值的影响被逐步平滑而降低到最小,此时可以用第一个数据代替。当数据较少时,初始值的影响较大,可以取最初几个实际值的平均值作为初始值的估计值。11y2、多次指数平滑预测二次指数平滑预测:对于有明显线性趋势的时间序列,对一次平滑值再作一次指数平滑。三次指数平滑预测:出现曲线趋势。各自的预测模型如下:线性趋势曲线趋势2TTTlTTTTlyABlyablcl例某公司1992年1季度到2000年4季度的销售资料,请用指数平滑法分析预测将来4个季度的销售额DateQ32000Q12000Q31999Q11999Q31998Q11998Q31997Q11997Q31996Q11996Q31995Q11995Q31994Q11994Q31993Q11993Q31992Q11992销售额(万)11010090807060504030预测结果DateQ32001Q12001Q32000Q12000Q31999Q11999Q31998Q11998Q31997Q11997Q31996Q11996Q31995Q11995Q31994Q11994Q31993Q11993Q31992Q1199211010090807060504030销售额(万)FitforSALESfromEXSMOOTH,MOD_5LMA优缺点只要知道本期的实际值和预测值就可以预测下一个时间的数值了只适用于随时间的消逝呈指数下降的数据平滑参数α的确定没有很好的判断原则。初始值的确定,如果数据点少,初始值对预测值的影响较大,违背了指数衰减的假设了。一般数据点大于40,初始值就影响不大。适用于呈水平发展的序列,如有上升、下降和季节变化的,可以通过差分使得数据平稳化。时间序列的预测一般不能太超前。第三节ARIMA预测方法(autoregressiveintegratedmovingaverage)一、预测模型自回归模型(AR)滑动平均模型(MA)自回归滑动平均模型(ARIMA)该方法包含三个过程:自回归、滑动平均和差分求和。1、自回归模型(AR)Yt与自己过去值的线性回归。Yt=Φ1Yt-1+Φ2Yt-2+⋯+ΦpYt-p+et式中:Φ1,Φ2,⋯,Φp是自回归系数;et是随机项或称误差项又称白噪声;p是自回归阶数。若p=1,则模型为Yt=Φ1Yt-1+et2、滑动平均模型(MA)t期观测值Yt被描述为过去误差e(et:t时期的误差)的线性回归。其模型形式为:Yt=et-θ1et-1-θ2et-2-…-θqet-q式中:θ是移动平均系数,q是滑动平均的阶数。若q=1,模型为Yt=et-θ1et-13、自回归滑动平均模型(ARIMA)其模型为自回归模型与滑动平均模型的组合:Yt=Φ1Yt-1+Φ2Yt-2+⋯+ΦpYt-p+et–θ1et-1-θ2et-2-⋯-θqet-q若p=1,q=1,则模型为:Yt=Φ1Yt-1+et-θ1et-1运用的前提条件待分析的时间序列已经是由一个零均值的平稳随机过程产生,平稳表明其折线图无明显的上升或下降趋势。非零均值、不平稳序列处理方法:1、零均值化处理:2、对零均值非平稳序列进行差分:滞后1项一阶差分:滞后1项二阶差分:滞后k项一阶差分:…………………………………….3、对数或平方根转换ttYYX1tttYYY21tttYYYtttkYYYY1,Y2,Y3,……,Yt一阶差分(t1):△Y2(Y2-Y1),△Y3(Y3-Y2),△Y4(Y4-Y3),……,△Yt(Yt-Yt-1),二阶差分(t2):△2Y3(△Y3-△Y2),△2Y4(△Y4–△Y3),……,△2Yt(△Yt-△Yt-1)…………………………………….预测的三个阶段1、模型的识别identification:主要通过自相关函数ACF、偏自相关函数PACF和CCF分析系列的随机性、平稳性、季节性,把握模型的大致方向,为模型定阶,提供粗的模型。2、参数估计和模型诊断estimationanddiagno-stic:对提供的粗模型进行参数估计和假设检验,作模型的诊断。3、预测forecasting:模型应用价值的体现。ARIMA:自回归的阶为p,差分次数为d,滑动平均的阶为q二、ARIMA自相关分析n是时间序列的观测值数目;是n个样本数据的平均值;Yt是时间序列在t时刻的值;Yt+k是时间序列与t时刻相隔k期的值。rk的取值范围是[-1,+1],它代表相差k个时期两项数据系列之间的相关程度。12211nkttktknknkttkttyyyyryyyy1.自相关分析y自相关系数Yt:Y1,Y2,Y3,…,Yn-k,…,Yn-2,Yn-1,YnYt+1(k=1):Y2,Y3,Y4,……,YnYt+2(k=2):Y3,Y4,Y5,……,Yn…………………………………..Yt+k:Y1+k,Y2+k,Y3+k,……,Yn由随机数字构成的序列,其各阶自相关系数应该是0。当序列诸项之间没有相关时,样本自相关系数的抽样分布近似于以0为均值的正态分布。这样,可以建立序列自相关系数的随机区间。将时间系列的自相关系数与偏自相关系数绘制成图,并在图上标出随机区间就是自相关分析图,它可以用来分析时间序列的随机性、平稳性、季节性特性。2.偏自相关系数时间序列Yt与Yt-k之间的相关是与中间各项Yt-1,Yt-2,⋯,Yt-k+1的相关结合在一起的,为了排除中间诸项因素的影响,只观察Yt与Yt-k之间的相关,需要计算偏自相关系数。在时间序列中,偏自相关是在给定了Yt-1,Yt-2⋯,Yt-k+1的条件下,Yt与Yt-k之间的条件相关。偏自相关和自相关系数被用来共同识别合适的ARIMR模型。三、ARIMA的计算步骤1.识别通过序列图、自相关分析对平稳性、季节性进行识别。短时滞ACF为正且大,随lag增加而缓慢下降,有上升或下降趋势;L=12时lag=12,24,…,ACF最大,无趋势有季节性;ACF摆动在时滞12,24,…有峰值,有趋势的季节性。procarima;identifyvar=x(k);/*对滞后k项作一阶差分*/procarima;identifyvar=x(1,1);/*对滞后1项作二阶差分*/2、模型诊断残差序列的分析:其自相关和偏自相关不应与0有显著的差异。残差是随机的,是白噪声。拟合优度的检验:AIC和SBC其值越低,模型越好。根据选中的模型,进行参数的粗略估计,然后用SAS软件进行分析比较,选择最佳的模型。例22-3:某医院90.1~01.12逐月门诊量数据:112118132129121135148148136119104118115126141135125149170170158133114140145150178163172178199199184162146166171180193181183218230242109191172194196196236235229243264272237211180201204188235227234264302293259229203229242233267269270315364347312274237278284277317313318374413405355306271306315301356348355422465467404347305336340318362348363435491505404359310337360342406396420472458559463407362405417391419461472535622606508461390432dataar;date=intnx('month','31dec1989'd,_n_);inputx@@;cards;11211813212912113514814813611910411811512614113512514917017015813311414014515017816317217819919918416214616617118019318118321823024210919117219419619623623522924326427223721118020120418823522723426430229325922920322924223326726927031536434731227423727828427731731331837441340535530627130631530135634835542246546740434730533634031836234836343549150540435931033736034240639642047