1美國兒童產品零售業資料分析學生姓名:劉上鳴指導老師:林財川國立台北大學統計系理論部分在介紹參數線性時間序列分析的理論方面(Akaik,H.(1974),FrancisX.Diebold(2001),吳柏林(1995))中,我們先說明三個標準的模型AR(autoregressivemodel)、MA(moving-average)及ARMA(autoregressivemoving-average)都需要符合的條件。第一,共變數穩定性(covariancestationary)。用以減少未知的參數,而且使tY的一階和所有二階動差均不受所在時間點t的影響。第二,殘差項符合白噪音理論(),0(~2WNt)。再者,為了使AR與MA在單位圓外有解所以需符合因果關係(causal)。此三個模型的表示如下:AR(p):tY=11...tptptYY;(1)MA(q):tqtqtttY...2211;(2)ARMA(p,q):tY11...tptptYY+qtqtt...2211;(3)其中20,tWN。在了解假設條件與模型之後,我們知道ACF與PACF是用來判斷資料為AR或是MA模型的最佳指標,因此,我們進一步來看ACF與模型間的關係。使用ACF的前提假設為共變數穩定性(covariancestationary),在此前提下,藉由Wold’s定理推知,ACF的定義為相距期間的共變數與自己本身自變數的比值,其一估計式為SACF=TttThthttyyyyyy121,(4)當T大時,SACF趨近於常態分配,其期望值為0,變異數為1/T。若為白噪音理論(whitenoise),則時間差(timelag)一期以上ACF值為0;若為MA(q)模型,則時間差(timelag)小於q期間的ACF值為時間差(timelag)h期間的共變數與自己本身自變數的比值,時間差(timelag)大於q期間的ACF值為0,這就是表示ACF呈現截斷(cut-off)的現象;若為AR(p)模型,則ACF呈現指數遞減(exponentialdie-down)。而使用PACF的前提假設依然為共變數穩定性,在此前提下PACF表示tY為前h期資料的線性組合,其估計式為hthttyycyˆ...ˆˆˆ11,(5)2當T趨近於無限大時SPACF(SPACF^h)近似常態,變異數為1/T。再來談談PACF的應用。若為白噪音理論(whitenoise),PACF為0;若為MA(q)模型,則PACF呈現指數遞減的現象;若為AR(p)模型,則PACF呈現截斷(cut-off)。那要如何判斷何者為最適的ARMA模型呢?我們利用AIC(Akaike,H.(1974))來作為判斷的依據,因為在ARMA(p,q)模型中(見(3))擁有太多的參數,所以為能了解是否這些參數對此模式是否有貢獻及多少的參數是最合適的,因此通常我們都會使用AIC極小值作為判斷的依據。AIC在此的功用如同回歸中的最小平方誤差項(SSE),因為最小平方誤差項越小表示預測的越精準;它也像2R,因為在AIC中也有懲罰項的存在。所以利用AIC可以找出較有效率性的模型(因為越多的參數固然可以包含較多的因子,但是並不是每一個參數都是有效的,而且過多的參數會使得浪費時間成本)。了解了上述的內容後,我們再來看看對於非穩定資料之處理。我們依據Box-Jenkin’s時間序列分析三大步驟做詳盡的介紹。首先對於「篩選模式」方面,必須符合如下的所有條件,這樣這個模型才算是最適模型。a.原始資料不為白噪音理論(whitenoise)。若原始資料為白噪音理論則不須另外配適模型差。b.Box-cox轉換後的資料須選取標準差最小者或是資料變異程度相近者。由於大部分的經濟時間資料的變異為隨著時間而改變,致使其質性假設不成立,故此,我們利用Box-cox轉換,使得變量為固定。c.去除資料趨勢。若原始資料具有長期趨勢(trend),則該資料不符合共變數穩定性的假設我們可利用「差分」的方法(此方法較為常用)使其滿足假設。例如線性趨勢的模型為例(t表示趨勢)ttty,(6)經過一次差分後(記作ty)1111ttttttyBytt,(7)由此可看出一次差分可去除線性的趨勢,若為拋物線的趨勢時,則同理可使用二次差分。d.去除資料之季節。若資料的ACF中,有季節性的顯著(如季的顯著、年的顯著、、、),如果只有第一個循環有,則先對模式做1sB的運算(S表示為每幾期就循環一次,如年的顯著則S=12,以此類推)。如果做完該差分後,ACF中的資料均可維持在兩倍標準差之內,那我們可以說這個模式應由ARIMA(p,d,q)改成ARIMA(p,d,q)*,1,SPQ。但是如果無法讓ACF中的資料均可維持在兩倍標準差之內,表示還存在著其他的循環,則需由還存在幾個循環來決定Q值,而且當你選定最適Q值後,PACF圖應該會呈現指數遞減的現象。3e.利用AIC值選擇模型。為解決「過度擬合(overfitting)」的問題,我們以AIC值當作選取最適模型的準則(設此可避免過度擬合,因為AIC值有懲罰項)。f.模型中各個變數的係數均需顯著(T檢定)。確認每個模型中的變數對於整個模型都是有影響力的,而且影響為顯著。g.配適模式後的殘差項應符合白噪音理論。因為所有的模型皆是在白噪音理論的前提假設下進行,因此若所選出來的模型與先前的假設不同,則須重新選模。h.注意AutoregressiveFactorsandMovingAverageFactors均需符合因果關係(Causal)的條件。這樣才會使得B在單位圓之外,而且不會有共根的現象。接著對於AR、MA、ARMA模型的「參數估計」。不論是AR、MA或是ARMA模型中,所有參數的估計均採用最小回歸平方法(leastsquaresregression),目的是使最小平方誤差為最小21minargˆTtttfy。(8)「預測(Forecasting)」是統計分析的最終目的,在時間序列的資料中,一個好的預測除了找除合適的模型之外,還需要判斷其是否為一個好的預測模型。判斷的方式不只是以預測值與實際值的差距來評斷,應以樣本內外(樣本內指的是我們原始握有的資料,樣本外指的是預測出來的資料)的平均誤差平方和(MeanSquareError)12ttnMSE(9)作為評估的標準較佳。4實例分析(一)資料收集及分析學生收集了1992-1998U.S.RetailSalesbyKidsofBusiness的96筆資料。圖一:原始資料的散佈圖由原始資料的散佈圖觀察出這份資料中,波動的幅度隨著時間的改變有明顯的增大,並非維持變異數的齊質性(homoscedasticity)。此資料內含趨勢和季節的因素,表示為非穩定性資料,所以必須將其穩定化。根據上面的觀察我們做出下列的處理,由於波動的幅度隨著時間的改變有明顯的增大,所以需要Box-cox,其轉換後的資料記為tZ。因為當轉換次方數()為0(即log的轉換)時標準差為最小(0.2010220),所以選擇此為最適轉換。圖二:經Box-Cox轉換後的資料散佈圖圖二波動的幅度已經固定在某一範圍內,符合了我們的齊質性(constantvariance)的假設。再來利用「差分」的方式處理趨勢和季節的因素。對趨勢與季節做差分,取lag=1處理趨勢因子,取lag=12處理季節因子觀察差分後SACF與SPACF圖(圖三)圖三:tZBB1211之SACF與SPACF5此圖可顯示我們已經將其季節的因子去除之後,雖仍有幾期為顯著,但均趨於平穩。(二)模式的鑑定在資料分析中,我們利用SAS軟體尋找最適合的模型(即尋找P,Q)。以AIC準則最適模型,可能是ARIMA(2,1,4)、ARIMA(5,1,2)、ARIMA(2,1,5)或ARIMA(3,1,5)。因為ARIMA(3,1,5)中較多係數的P-value比顯著水準小,表示較多係數為顯著,但是有些係數的絕對值大於一,所以再試試ARIMA(3,1,5)附近的模式。經過了幾次嘗試,最後選出ARIMA(3,1,1),雖然這個模式的AIC不是最小(-353.881),但是所有的係數均為顯著,而且所有的殘差項是符合白噪音理論(whitenoise;此時Ho:ie符合白噪音理論v.s.Ha:ie不符合白噪音理論;因為P-value>0.005時無法否決虛無假設),但此模型中多數殘差項的ACF都在兩倍標準差內,只有第12期跟第13期剛好在兩倍標準差上。所以懷疑是季節因子(seasonal)還沒去除乾淨,因此等一下會在針對這點在分析。表四:ARIMA(3,1,1)配適模式之係數再看看表四AutoregressiveFactors中,學生看到MovingAverageFactors為可知B在單位圓之外,符合了因果關係(causal)的條件(係數為invertible),也就是AR和MA沒有共根。所以這個模式可配適為ARIMA(3,1,1):()(1-B)(1-B12)*Zt=()*te(10)注:要注意此時的Zt為經過Box-cox轉換後的值,並非原始資料再對我們之前提到的懷疑(第12期跟第13期剛好在兩倍標準差上,所以懷疑是季節因子還沒去除乾淨)做額外的處理。我們得知在第12期跟第13期剛好在兩倍標準差上,所以我們將季節模型12,,QDP的Q值訂為1,因此成功的消除了第12期的顯著。而且PACF值也呈現指數遞減的現象、係數也均呈現顯著,且殘差項也都符合白噪音理論(見表五,取=0.05)表五:ARIMA(3,1,1)*(0,1,1)之殘差6還有AIC值也明顯的變小了(-365.222)。所以相較之下,學生認為加入季節模型後,會使整個模型較ARIMA(3,1,1)模型合適。ARIMA(3,1,1)*(0,1,1):()(1-B)(1-B12)*Zt=()()*et(11)(三)對未來的預測依此模式(ARIMA(3,1,1)*(0,1,1))做出對未來12個月(一年)的預測,以1999年1月為起點,而樣本內的MSE為0.0102,樣本外的為0.0053,因為兩者都相當接近於零,所以我們認為這是一個相當不錯的模式。(四)討論因為的觀測值均落在95%的信賴區間內,所以此模式適用於此。0100000200000300000400000020406080100120圖四:1992-1999年所有資料的散佈圖(共108筆資料,紅色的點為預測值)而從圖四中看出隨著時間的增長,生活水準及物價水準的上揚,花費於小孩子身上的費用逐年提高,又每年的12月為美國的重大節慶-聖誕節(一般而言,不論家境如何,聖誕節前夕美國人都會瘋狂的購買,其盛況如同中國的農曆年),所以當月消費於小孩子身上的費用又較同一年中為最高,而且往往呈現異常成長的現象。因此我們由這些數據可知,在美國這個孩子的天堂中,父母親將越來越多的金錢花費於小孩子之中,而且,這種消費行為強烈受到聖誕節的影響。參考書目1.Akaik,H.(1974),”ANewLookatStatisticalModelIdentification”,IEEETransactionsonAutomaticControl,AC-19,716-723.2.FrancisX.Diebold,”ElementsofForecastining”,SecondEdition(2001)3.吳柏林,時間數列分析導論,華泰書局(1995)