基于统计分析理论的猪肉产量及价格指数预测四川大学杨利锋、陈秋燕、许小静摘要国家对市场经济的宏观调控往往受到多个指标的影响,各指标的定性及定量分析往往对政府部门的决策起到了关键的作用。本文旨在关注市场经济中两个最为重要的经济指标—产量及价格指数,以我国猪肉市场为实例,在统计分析等相关理论的基础之上,我国猪肉市场的,对影响我国猪肉市场的两个指标的因素加以分析,考虑到产量及价格指数因地而异的特点,搜集历年统计年鉴及农业统计年鉴中的相关数据,对全国31个省市自治区进行聚类分析,对于各类分别建立了产量的时间序列模型及价格指数的多元回归模型,并成功地预测了2011年产量及价格指数,为政府部门的决策提供了依据。关键词:聚类分析时间序列模型多元回归模型猪肉产量价格指数2一、问题的提出新的经济政策的提出,不断修正和完善着现有经济体制,使得我国的经济体系日趋成熟,从而赫然屹立于世界经济强国之列。众所周知,工业为强国之本,然而,农业为民生之本,受历史因素及传统观念的影响,我国仍然是一个以农业为主导产业的大国,1952、1953年,我国农业总产值为346亿、381.4亿,分别占国内生产总值的50.96%、46.603%(国内生产总值679亿、824.2亿),随着科技的发展,农业也有所发展,直至近年(如2007、2008年),我国的农业总产值大幅增加(28627亿、34000亿),依然占国内生产总值较大的比重:11.13%、11.31%(国内生产总值为257305.6亿、300670亿),因此,在我国,对于农业的关注在相当长一段时间内有很大的必要性。作为农业一大支柱的畜牧业,其重要性自然不言而喻。畜牧业在很大程度上是为人类提供生活必需品,例如食物、绒毛产品等。自1985年以来,我过猪肉产量及平稳增长,猪肉价格指数趋于稳定,然而,在2008年,由于受到禽流感等疾病的影响,猪肉市场曾一度引起轩然大波,猪肉产量猛降,猪肉价格在2008年大幅上涨,导致其价格指数起伏较大,因此,研究我国猪肉产量以及价格指数的走势有重大意义:通过分析猪肉产量的走势,能够预测未来的猪肉产量。于宏观来说,通过对猪肉产量的预测,政府部门能够很好地调控猪肉市场,避免囤货居奇现象的出现,使得猪肉市场得以平稳发展,对于我国这样以农业为主产业的大国影响颇大;于微观来说,预测猪肉产量能够很好的引导农民饲养家畜,防止因为猪肉价格的上涨而引起市场盲目性,而对广大饲养户造成经济损失,对于保障广大农民的利益意义重大。通过分析猪肉价格指数的走势,能够较好地预测未来猪肉的价格指数。一方面,预测价格指数能够规范猪肉市场,控制市场价格,防止投机倒把行为;另一方面,预测价格指数从而又可以有效的预测价格,这给饲养户以及广大消费者一个正确的指引,防止其受到不法商贩的欺骗,损害其合法权益。由此可见,猪肉产量及价格指数的预测,不仅能够保障广大人民的利益,又对政府部门的决策至关重要,对整个国家的畜牧业乃至农业发展影响可观,于国家的经济建设更是息息相关。二、问题分析考虑到我国气候、经济状况等特点,各个地区的畜牧业发展不均衡,导致猪肉的产量因地而异,同时,由于价格跟产量也有相当大的关系,因此,各省猪肉的价格指数也是不尽相同。鉴于上述分析,在建立模型的时候需对全国各省进行聚类,即将地域(地域差异导致气候不同)等因素考虑进去,将全国各省分成几个不同的大类,再对各类依次建模,同时,可对全国的总体情况建模用以对比。对于产量的预测,考虑到搜集到数据的特征,为随时间变化的序列,因而可考虑借助时间序列分析的工具来对其进行分析和处理,具体来说,可在分析所得3数据特点(包括平稳性、纯随机性等)的基础上对其建立ARMA等相关模型,从而分析产量走势并进行预测。对于价格指数的预测,分析可能影响价格指数的一些因素,诸如产量、替代品价格指数、工资指数等,将这些可能因素综合起来,在经过数据预处理的基础上,可考虑对每一类建立一个多元回归模型,分析猪肉价格指数的走势,对其进行预测。三、模型假设假设1:假设所搜集到的数据真实可信,客观地反映了我国猪肉市场的相关信息。假设2:在所考虑的年份内,不考虑特大自然灾害(如地震等因素)引起的猪肉产量以及价格的巨大变化。假设3:由于本文所考虑的猪肉产量及价格指数为自然性质的,因此在分析和讨论模型时不考虑政府部门的干预,不考虑政治因素对猪肉产量等的影响。假设4:由于港澳台地区社会制度、经济发达程度均与内陆有较大差异,因此,对于所得数据中港澳台的数据信息予以剔除,不在本文所讨论的地区范围之内。四、模型准备本文的主要研究目的在于猪肉产量的预测及其价格指数的预测,从而为国家部门提供决策依据。然而,对于上述两个经济指标的预测,由于各省市气候、经济状况、农业发展程度的的不同,导致各个地区的畜牧业发展不均衡,猪肉的产量也因地而异,因此最完美的做法是针对各个省市分别建立一个模型,分省市分别进行预测,然而作为本文所考虑的情况,预测猪肉产量及价格指数的目的在于:为国家对于猪肉市场的宏观调控,因此分省市分别建模的做法代价过高,同时不利于国家作决策。因此,可考虑寻求一种简单而实用的方案。鉴于我国气候、经济状况等特点,各个地区的畜牧业发展不均衡,导致猪肉的产量因地而异,因而可以考虑利用搜集到的产量相关数据对全国31个省市自治区(港澳台除外)进行聚类,分为几个大类来考虑,分类体现出了各省经济发展的程度不同,因而国家在进行宏观调控的时候可以考虑针对各个大类来进行,因此,该方案既必要又可行。将搜集到的数据作初步处理,对每个省市自治区求1985-2009年猪肉产量的平均值如下表:表1各省市自治区求1985-2009年猪肉产量的平均值表北京天津河北山西内蒙古辽宁吉林黑龙江24.115116.6544196.524436.2842355.0400123.218072.3006569.73420上海江苏浙江安徽福建江西山东河南20.7016181.133198.1128152.172095.5020144.4952243.0086245.95364湖北湖南广东广西海南重庆四川贵州190.2480301.514190.0495155.587422.8323135.4692425.737896.0200云南西藏陕西甘肃青海宁夏新疆141.69090.7166854.984038.311607.069686.7744012.06120在得到上表的基础上,采用最大距离法,利用SAS软件对其进行聚类分析如下图:图1最大距离法聚类图根据上图,结合实际情况,将全国31个省市自治区分为3类地区:第一类:北京、海南、上海、天津、新疆、西藏、青海、宁夏、山西、甘肃、内蒙古、陕西、吉林、黑龙江;第二类:河北、湖北、广东、江苏、辽宁、浙江、福建、贵州、安徽、广西、江西、重庆、云南;第三类:山东、河南、湖南、四川。其中,第一类地区多为北方省市,其气候干燥,影响草本植物的生长,直接导致猪的食物供给有限,属于猪肉产量较少的地区;第二类地区多为南方及沿海省市,其气候湿润,适宜草本植物生长,为猪的生长提供了充足的食物,同时沿海地区经济较为发达,这也为农村居民养猪提供了必要的条件,该类地区猪肉的产量较为丰富;第三类地区为人口大省,人口基数大,饲养猪的人数较多,直接导致该类地区猪肉产量高居各类地区之首。结合上述分析,同时考虑到我国的实际情况,认为上述分类合理。五、产量模型的建立及预测在聚类的基础上,本文考虑分别针对三类地区进行建模及预测,同时,对全国产量建立模型用以对比。(一)全国产量模型建立及预测1.数据预处理1.1序列纯随机性检验为了判断该序列是否有分析价值,必须对该序列进行纯随机性检验,即白噪声检验。白序列为纯随机说明该序列无章可循,随机波动,故而没有研究的价值,5只有当序列为非纯随机序列时,该序列才有进一步分析的必要。利用SAS软件对1985-2009年全国猪肉产量作纯随机性检验,得到:表21985-2009年全国猪肉产量序列纯随机检验结果延迟阶数LBQ统计量P值671.010.00011277.290.000118146.190.000124211.750.0001由表2可见,各阶延迟的LBQ统计量的P值都非常小(0.0001),从而有很大的把握(置信水平99.999%)断定该序列属于非白噪声序列,因而,该序列有进一步研究的价值。1.2序列平稳性检验一个平稳的时间序列唯一决定了其自相关系数,然而,一个自相关系数未必唯一对应着一个平稳时间序列,即可能导致模型的不唯一,因而有必要对序列进行平稳性检验。平稳性的检验可根据时序图及自相关图显示出的特征作出判断,也可构造检验统计量进行(本文中采取单位根检验法)。利用SAS软件1985-2009年全国猪肉产量的时序图及自相关图如下:图11985-2009年全国猪肉产量时序图6图21985-2009年全国猪肉产量自相关图由图1可见,该序列具有明显的趋势性,从1985年到2009年呈现出明显递增的趋势,从图2看到,序列自相关系数递减到零的速度相当缓慢,在很长的延迟时间里,自相关系数一直为正,而后又一直为负,在自相关图上显示出明显的三角对称性,因而初步判断其为具有单调趋势的非平稳序列,对其进一步作单位根检验(1阶自相关ADF检验)得到:表31985-2009年全国猪肉产量单位根检验结果类型延迟阶数Tau统计量P值无均值、无趋势01.720.975811.810.9794有均值、无趋势0-1.140.68191-1.180.6646有均值、有趋势0-2.350.39451-1.910.6193由上表可见,Tau统计量的P值显著大于0.05,因而可以断定该序列非平稳。综上认为,该序列为非平稳非白噪声序列,因此,可先对其进行差分过程,而后再加以研究。2、模型建立经过观察和计算发现,对1985-2009年全国猪肉产量序列作3阶差分,得到的新的序列为平稳序列序列。2.1模型建立利用SAS软件,作出3阶差分后序列的时序图以及自相关图如下:7图31985-2009年全国猪肉产量3阶差分序列时序图图41985-2009年全国猪肉产量3阶差分序列自相关图由图3可见,3阶差分后序列显示出一定的平稳性,递增的趋势已被消除;由图4可见,3阶差分后序列的自相关系数一直都比较小,始终控制在2倍标准差范围内,可认为3阶差分序列的自相关自始至终都在零附近波动,因而初步断定3阶差分后序列为平稳序列,对其进一步作单位根检验(1阶自相关ADF检验)得到:表41985-2009年全国猪肉产量3阶差分序列单位根检验结果类型延迟阶数Tau统计量P值无均值、无趋势0-10.170.00011-6.840.0001有均值、无趋势0-9.920.00031-16.380.0004有均值、有趋势0-9.730.00021-6.470.00038由表4可见,Tau统计量的P值小于0.05,从而有很大的把握断定3阶差分后序列属于平稳序列。利用SAS软件对3阶差分后序列作纯随机性检验可得:表51985-2009年全国猪肉产量3阶差分序列纯随机性检验结果延迟阶数LBQ统计量P值611.390.07701236.130.00031836.310.0064由上表可见,在显著性水平取为0.05的条件下,由于12阶和18阶的LBQ统计量的P值均小于0.05,说明原序列3阶差分序列不可视为白噪声序列,即3阶差分后序列还蕴含着不容忽视的相关信息可供提取,从而有分析的价值。综上所述,3阶差分后序列为平稳非纯随机序列,因此,可考虑对3阶差分后序列建立ARMA(p,q)模型,即对原序列建立ARIMA(p,d,q)模型(此处d=3)。设对3阶差分后序列建立模型为:()()ttBXB则原始序列的模型为:3()()ttBXB其中,33(1)B表示对原始序列的3阶差分;212()1...ppBaBaBaB为p阶自回归系数多项式;212()1...qqBcBaBcB为q阶移动平均系数多项式。当p=0时,模型简化为MA(q)模型;当q=0时,模型简化为AR(p)模型。