基于EMD和高斯过程-灰色预测的话务量预测宋秀秀1,贾振红1,覃锡忠1,曹传玲2,牛洪梅2(1.新疆大学信息科学与工程学院乌鲁木齐830046;2.中国移动通信集团新疆有限公司乌鲁木齐830063)摘要:为了更准确的对忙时话务量进行预测,在考虑多因素条件下提出一种基于经验模态分解(EMD)的高斯过程和灰色预测的组合预测模型。首先对影响话务量的多因素进行相关性分析,提取出最有影响力的关键因素。然后用经验模态分解法把话务量数据在时域上分解成具有不同频率特征的多个分量。把本征模函数(IMF)分量分别和关键因素作为输入,用高斯过程进行预测,趋势分量用灰色预测方法进行预测,然后把各预测结果叠加,得到话务量预测值。通过对收集的话务量数据进行仿真实验,验证了该算法在预测话务量方面具有预测精度高,实现较容易等优越性。关键词:话务量预测;多因素;经验模态分解;高斯过程;灰色预测;组合模型中图法分类号:TP393文献标识码:A文章编号:ForecastingoftelephonetrafficbasedonEMDandGaussianprocess-GraypredictionSONGXiuxiu1,JIAZhenhong1*,QINXizhong1,CAOChuanling2,NIUHongmei2(1.SchoolofInformationScienceandEngineering,XinjiangUniversity,Urumqi830046,China;2.SubsidiarycompanyofChinaMobileinXinjiang,Urumqi830063,China)Abstract:Toimprovethepredictionaccuracyofbusytelephonetraffic,thispaperproposesacombinedforecastingmodelwhichtakestheinfluenceofmultiplefactorsintoconsiderationandcombinesEmpiricalModeDecompositionandGaussianprocessmodelandgraypredictionmodel.Correlationanalysisisfirstlyappliedtothebusytelephonetrafficdatatoobtainthekeyfactorswhichinfluencethebusytelephonetraffic.ThenEmpiricalModeDecompositionisusedtodecomposethetelephonetrafficdataintimedomaintogetthecomponentswithdifferentfrequency.TheIMFcomponentandtheobtainedkeyfactorsareloadedintoGaussianprocessmodeltopredict,whilethetrendcomponentisloadedintograypredictionmodeltopredict,finallytheforecastingresultisachievedbythesuperpositionofeachpredictivevalues.Throughthesimulationexperimentsoftelephonetrafficdatacollectedinpractice.Thesimulationresultsshowthattheproposedmodelhasthesuperiorityofhigherpredictionaccuracyandeasiertoimplement.Keywords:Forecastingoftelephonetraffic;multiplefactors;EMD;Gaussianprocess;grayprediction;combinedmodel0引言据最新数据统计,中国移动通信的用户量已经突破15亿。随着中国4G时代的到来,今后移动通信用户量也会大幅度的增加。在移动通信技术经过跨越式的发展和技术方面的革新之后,对于移动通信网络中的相关数据进行处理和分析的要求也逐渐提高,其中话务量数据占有非常重要的地位。对话务量有效预测,可以使运营商把握未来市场变化的有关动态,降低决策可能遇到的风险,使决策目标得以顺利实现。话务量预测传统使用的通常都是采用对时间序列的定量预测法,常用的有指数平滑预测、曲线拟合预测、马尔科夫模型、ARMA模型等。现在人工智能方法发展迅速,许多学者已经成功的将这些方法运用到各种预测中,文献[1]、[2]使用神经网络解决了话务量及时间序列预测问题;文献[3]、[4]使用支持向量机解决了用电负荷量和话务量预测问题。这些文献取得了较好的预测效果,但是还存在着不足,神经网络结构参数仍然难以选择,而且收敛速度慢,易陷入局部最优。支持向量机虽然预测效果更好,但核函数和正则参数的选取尚无确定方法。基于贝叶斯理论的高斯过程[5]是一种全新的机器学习方法,在处理高维数、小样本和非线性等复杂问题上具有显著优越性。该方法容易实现,超参数可自适应获取,输出具有概率意义,是当前用来预测的较好方法。另外,经大量的实践研究表明,组合预测模型相比于单一预测模型更胜一筹,对于受多种因素基金项目:中国移动通信集团新疆有限公司研究发展基金项目(XJM2013-2788)贾振红,男,(1964-),博士,博士生导师,研究方向为光通信技术、信号与信息处理。Email:jzhh@xju.edu.cn影响的具有复杂变化规律的话务量数据,组合预测模型可以更加准确全面的对话务量数据进行描述。普遍采用的数据分解方法有小波变换[6]和经验模态分解[7][8](EmpiricalModeDecomposition,EMD)。EMD在具备小波变换多分辨分析优点的同时,还克服了小波基选择上的困难,所以本文选用EMD。综上所述,同时考虑到话务量是受多因素综合影响,本文提取出影响话务量的关键因素,并且采用基于EMD分解的高斯过程和灰色预测组合模型来对话务量进行预测,对收集的移动话务量数据进行仿真实验,验证该方法的可行性和有效性。1基本原理1.1经验模态分解经验模态分解方法[9]是一种自适应的时域处理方法,适合非线性、非平稳时间序列的处理。EMD的基本思想是,将一个复杂的信号分解为有限个不同时间尺度的本征模函数(IntrinsicModeFunction,IMF)。即1niniXtctrt(1)式中:X(t)为原信号;ci(t)为第i个本征模函数;rn(t)为残余项,即趋势项。1.2高斯过程高斯过程统计特征完全取决于它的均值函数和协方差函数[10]。考虑回归问题模型:yfx(2)式中:x为输入向量,y为观测值,噪声N(0,n2)。根据贝叶斯后验概率公式得到预测值y’的期望和方差分别为12,,ynnCxXCXXIy(3)122,,,,ynnCxxCxXCXXICXx(4)高斯过程中协方差函数等价于核函数,常用的协方差函数是平方指数协方差,即:221,exp2TijijfijijnCxxxxMxx(5)式中:f2为核函数的信号方差;M=diag(l-2)为超参数的对角矩阵,l为方差尺度;ij为克洛内克尔(Kronecker)符号。令={M,f2,n2}为超参数。最优超参数一般通过对数函数极大似然法获得。负对数似然函数L()和超参数的偏导数如下:111loglog2222TnLyCyC(6)112TiiLCtrC(7)式中:=C-1y。1.3灰色预测灰色预测[11][12]是用GM模型对系统行为特征的发展变化规律进行估计预测,也可以对数列进行预测,依据已有的数据对未来的发展趋势做出预测分析。令x(0)=(x(1),x(2),,x(n)),作一次累加生成x(k)=x(m),消除数据的随机性和波动性,m=1,有1,2,,1,12,,1xxxxnxxxxnxnx可建立白化方程:dxaxudt(8)即GM(1,1),式中:a是常数,称为发展灰数;u称为内生控制灰数,是对系统的常定输入。2预测模型及过程本文采用基于EMD分解的高斯过程和灰色预测模型相结合来对话务量进行预测分析,具体实现步骤如下:1)对忙时话务量进行相关性分析,提取出影响话务量的关键因素;2)对忙时话务量数据用EMD分解,得到不同频率分量IMF1、IMF2、IMF3、IMF4、IMF5以及趋势分量R;3)将IMF1、IMF2、IMF3、IMF4、IMF5分别和各影响因素数据作为输入,用高斯过程进行预测,得到各分量预测值Pre1,Pre2,Pre3,Pre4,Pre5;4)将趋势项R作为输入,用灰色预测模型GM(1,1)进行预测,得到预测值Pre6;5)将各分量预测值叠加得到话务量预测值Pre=Pre1+Pre2+Pre3+Pre4+Pre5+Pre6;预测模型图如下图所示:图1预测模型图3仿真实验分析3.1实验数据本文收集了某地区从2012年4月1日至2012年5月31日及2013年4月1日至2013年5月31日的话务量和各影响因素的数据,取每天24小时中话务量的最大值作为忙时话务量数据。统计122天的话务量,得到122个忙时话务量数据如图2所示。从图中可见两年间同一时间段的数据具有相似的变化规律,从而用所选取的话务量数据进行预测具有可行性。考虑到话务量受多种因素综合影响,对收集的各种影响因素数据,利用相关性分析[13]得到和话务量相关性比较大的因素有忙时VLR用户总数、VLR开机用户总数、系统应答总次数,其相关性大小如表1所示。本文选取前121个数据为训练样本,来对最后一天2013年5月31日的话务量进行预测。0204060801001201404.24.44.64.855.25.45.65.866.2x104天数话务量图2忙时话务量数据表1相关性统计结果影响因素忙时VLR用户总数VLR开机用户总数系统应答总次数相关系数0.550.990.523.2仿真实验首先用EMD对话务量数据进行分解,得到各分量如下图3所示。由图可见各分量频率逐渐降低,EMD分解的收敛准则使得最后一个残余项R频率最低,且是一个单调函数,代表整个话务量数据变化的整体趋势。图3也证实EMD能把话务量数据有效地分解到不同频率尺度上,便于挖掘话务量的内部规律以及对影响因素的分析,从而有利于话务量分析和构建各分量的预测模型,以提高模型预测的精度。020406080100120-101x104天数IMF1020406080100120-101x104天数IMF2020406080100120-500005000天数IMF3020406080100120-500005000天数IMF4020406080100120-100001000天数IMF502040608010012055.56x104天数趋势R图3EMD分解图把前五个分量结合三个影响因素数据分别用高斯过程进行预测。对最后一个趋势分量R用灰色预测GM(1,1)进行预测,因为R代表一段时间话务量变化的趋势,是一个整体性的特征分量,所以这里不考虑多因素影响。然后把六个预测结果进行叠加,即为本文算法的预测结果。为了进一步验证本文预测模型的预测效果,选取基于EMD和粒子群优化的LSSVM与基于小波变换的LSSVM预测模型作为对比模型,这两种模型同样考虑了多因素影响,结果如图4所示。0204060801001201404.555.566.5x104实际值本文预测值EMD-LSSVM预测值WTLSSVM预测值图43个模型的预测结果对比图然后,对预测