ComputerEngineeringandApplications计算机工程与应用2013,49(8)1引言大规模网络管理、规划以及新一代网络体系结构的设计等均离不开对网络流量行为的理解[1-4]。研究网络流量行为首先要对测量流量的数据进行统计分析,寻找统计规律。这方面的代表性工作是MCI的Thompson[5],他完成了对MCI两个测量点的24h、7d的流量进行详细的分析。其次是在流量统计分析的基础上建立流量模型,如1994年Leland[6]等人对以太网流量数据进行统计分析发现以太网流量具有自相似性并建立网络流量自相似模型。在描述网络流量行为的模型中,时间序列模型起着相当重要的作用[7-11]。由于传统的宏观流量时序模型只能处理平稳过程和特殊的非平稳过程,所以描述流量行为的误差较大。如AR模型、ARMA模型、MA模型用于解决平稳过程[7-8],ARIMA模型、ARIMA季节模型、小波分解法等处理分平稳过程。网络预报系统是一个复杂的非线性动力学过程,受各种因素的影响不仅呈现出非平稳动态随机变化的特性,而且其内部运动关系也很难确定,Nancy和George的研究表明传统的时间序列预测模型、线性回归、季节性预报模型都很难解决复杂非线性关系[12-15],在一定程度上将影响模型的预测效果,如网络流量的某些趋势流量增长的不稳定变化可能会限制传统模型的使用。由于大规模网络本身是复杂非线性系统,同时又受多种复杂外界因素的影响,其宏观流量行为往往也比较复杂,数据中既含有多种周期性波动,又呈现非线性升降趋势,还会受到未知因素的干扰,而这些特点难以用传统模型来描述。20世纪80年代发展起来的神经网络具有强大处理大规模非线性动力学的能力,但传统的神经网络仅对具有趋向性的时间序列预测做了研究[16-18]。通过对经典的时间序列模型的研究,本文提出了映射矩阵的模型。以该矩阵为基础,对未来时期的网络流量做分析与预测。以某高校的主干流量为样本,进行试验验证,结果证明映射矩阵模型方法,精度高、收敛快。2映射矩阵流量预测模型2.1建模思想对于二维空间,存在XOY轴的平面坐标系。在任何一基于映射矩阵的网络流量分析预测模型贺相春1,2,董晓辉1,2HEXiangchun1,2,DONGXiaohui1,21.西北师范大学计算机科学与工程学院,兰州7300702.甘肃省物联网工程研究中心,兰州7300701.CollegeofComputerScienceandEngineering,NorthwestNormalUniversity,Lanzhou730070,China2.GansuIOTResearchCenter,Lanzhou730070,ChinaHEXiangchun,DONGXiaohui.Networktrafficanalysisandforecastingmodelbasedonmappingmatrix.ComputerEngineeringandApplications,2013,49(8):100-104.Abstract:Byanalyzinguserbehavior,thispaperfindsthattheIPdatastreamhassmoothandself-correlationcharacteristics,pro-posesapredictionmodelbasedonthemappingmatrixflowincomparisonwiththelinearAR,RIMAmodelsandnonlinearBPmodelbasedonfeedbackneuralnetwork,Elmanneuralnetwork.Thetestresultsdemonstratethatthemappingmatrixmodelhashighpredictionaccuracyandfastconvergencecharacteristicscomparedwithexistingmodels.Keywords:mappingmatrix;predictionmodel;networktraffic;userbehavior摘要:通过对用户行为分析,发现IP数据流具有平稳性、自相关性等特点,提出基于映射矩阵流量预测模型,并与线性模型AR、ARIMA和非线性基于反馈神经网络BP模型、Elman神经网络作对比,试验结果证明,映射矩阵模型,比现有模型具有预测精度高、收敛快等特点。关键词:映射矩阵;预测模型;网络流量;用户行为文献标志码:A中图分类号:TP311doi:10.3778/j.issn.1002-8331.1211-0191基金项目:西北师范大学青年教师科研能力提升计划项目(No.SYQNYB10040)。作者简介:贺相春(1980—),男,讲师,主要研究领域为网络监控及教育软件研发;董晓辉(1982—),男,硕士,主要从事软件工程、管理信息系统的研究与开发。E-mail:hxc@nwnu.edu.cn收稿日期:2012-11-19修回日期:2013-02-27文章编号:1002-8331(2013)08-0100-051002013,49(8)维中,存在与其对应的单位向量,对于单位向量而言,方向确定且模长等于1,单位向量之间,满足彼此不相关,即彼此正交。对于x轴,存在i(10)的单位向量,而对于y轴,存在j(01)的单位向量。现在可将原来的XOY轴的平面直角坐标系,以O为原点,逆时针旋转45°,会得到新的X′OY′的平面坐标系。原XOY坐标系中x轴的单位向量i(10),在新的X′OY′轴线上的坐标为i′(10),但对于XOY坐标系上的坐标而言,却变成了i新(1/21/2)。同理可以得出X′OY′上的坐标j′(01),在XOY坐标系上的坐标为j新(-1/21/2)。二维坐标变换过程如图1所示。2.2映射矩阵时序的网络流量数据具有平稳性和自相关性等特点,因此,对于网络的实际流量所构成的矩阵Xm´n (mn),xij为X中的一个元素,i代表样本中某一天所采集的流量序列号,i=12m,j代表一天中所对应的时间点,j=12n。可将矩阵Xm´n看作m个n维的行向量组。由对二维空间的分析可知,对于N维空间的单位向量组,经过变换,可以得到新的空间向量组,新生成的空间向量组Vn´n,满足两个条件:(1)对于向量本身,它的各个坐标值的平方和等于1。即:a2i1+a2i2++a2in=1i=12n,其中aij表示第i个向量的第j个因子。(2)对于向量之间,它们彼此不相关。即:r(k)=γ(k)/γ(0)=0,其中k表示向量间彼此的距离,r表示向量间的相关系数,γ表示协方差。对于Xm´n (mn)中的任何一个行向量,即第i天中包含任何一个时间观测点所观测出来的流量信息,通过点乘空间向量组Vn´n,可以得出第i天的实际流量数据在空间矩阵上的投影信息。利用实际观测数据的整体Xm´n (mn)和点乘空间向量组Vn´n,就可以得到某一天的流量信息在空间向量组上的投影信息,所得的矩阵,称为映射矩阵,用Sm´n表示。则实际观测数据Xm´n (mn)、空间向量组Vn´n和映射矩阵Sm´n的关系为:Sm´n=Xm´n×Vn´n(1)2.3网络流量的空间向量组表示为了得到彼此不相关的空间向量组,可以通过施密特正交过程来对原有的数据Xm´n (mn)进行处理。但通过试验发现,这种方法与求特征向量相比,要慢许多。因此,可以通过求Xm´n (mn)的特征值和特征向量,来得出满足以上两个性质的向量组。特征值与特征向量的模型为:Ax=λx(2)其中,A为方阵,而对于实际观测的数据,它的行数要大于列数(mn),即:观测的天数要大于观测的时间点数。对标准化后的原始数据通过其自协方差进行处理:Z=1m-1XTX(3)其中XT为原始观测的m行n列数据的转置矩阵,X为原始观测数据,Z为n行n列的方阵。通过公式(2)可以得到原始观测数据的方阵表述,进而可以通过公式(1)得到Z的特征值及相对应的特征向量。根据特征向量的数学性质,可以得出:它们的列向量中的各个元素的平方和等于1,而且各个列向量彼此正交。因此可以认为:该特征向量矩阵,为所需要的空间向量组,用Vn´n表示。该空间向量组的任何一个列向量vi(i=1,2,,n)。包含了n个元素,每个元素,都是通过对原始的单位向量坐标进行变换而得出的。2.4映射矩阵的流量预测通过2.2节的叙述可知,映射矩阵Sm´n为真实流量在其空间向量组上的投影,对于原始数据具有相关性,那么在空间向量组上的投影,也具有相关性。因此可以通过这种相关性,通过对原始数据的分析,来对未来的流量进行预测。在对网络的实际管理中,发现在网络条件良好的条件下,网络中的流量总是和近期流量相关性大,而与较远时期的流量相关性小。因此,设相关因子为ωi(i=12m),取值范围为ωiÎ(01),它描述的是第i天的数据对要预测的第m+1天的影响程度,若ωi的值较大,说明第i天的数据与要预测的数据相关性较大,反之,相关性较小。其中m为所观测的天数,也就是真实流量的行数。通过以上的原则,可以得知:相关因子序列是从小到大依次排列的实数序列,即ω1ω2ωm。在进行相关因子选择的时候,为了提高预测的精度,可以按照如下原则:sm»ω1s1+ω2s2++ωm-1sm-1(4)其中si (i=12m)为映射矩阵中第i个行向量,即第i天的数据在空间向量组上的映射。由于,映射矩阵中的任何两组行向量,并不满足线性关系,因此,映射矩阵m天的流量数据预测第m+1天的流量数据模型如下:sm+1»åi=1mωisi(5)2.5相关因子的优化估算2.5.1相关因子的初始化相关因子序列是从小到大的实数序列,并且每个元素均在0与1之间,可将相关因子看作映射矩阵中每个行向量的概率,因此,可将相关因子的估计转换为映射矩阵中每个行向量的概率。设相关因子序列服从系数为λ的指数分布,其概率密度为:1,0x0.71,0.71O-0.71,0.710,1y′yx′图1二维坐标变换过程图贺相春,董晓辉:基于映射矩阵的网络流量分析预测模型101ComputerEngineeringandApplications计算机工程与应用2013,49(8)f(i)=λe-λi,λ0i0(6)其中,λ为影响相关因子序列的平稳程度以及影响其取值范围的因素。i为映射矩阵行向量的序列的标号归一化之后,从小到大排列的序列。而每一个相关因子可以近似的表示为:ωi=λe-λidi。在此之后,要对λ进行估算的工作。在对参数的估算算法中,有最小二乘法、距估计、最大似然估计等算法。出于对估算精度与算法运行时间的综合考虑,选择最大似然估计的算法,来进行参数的估计。由于估算的参数仅有一个,因此最大似然模型为:L(λ)=Õi=1mf(iλ)(7)将式(5)带入式(6)可以得:L(λ)=λme-λ(i1+i2++im)(8)将式(8)对λ进行求导后,通过整理可以得出λ的估算值:λ̂=m/åi=1mii(9)其中,m为映射矩阵的行向量的数目,i为m行映射矩阵的序号进行归一化之后,从小到大排列的序列,它的个数为m个。通过估算出的λ̂值,可以生成相关因子ω的初始序列。2.5.2相关因子的优化通过对机器学习的研究发现,一个能自己学习以及通过不同的观测数据来进行自我系数修正的系统,才可以使自己的应用范围更广、预测精度更高。从2.3.1节的叙述,相关因子是服从系数为λ的指数分布。因此,可将对相关因子序列的优化看成对系数λ的优化过程。在对将λ的优化过程中,可将λ加上和减去一个步长因子α,从而得到λleft和λright,按照惯例λleft为原λ加上α因子的值,λright为原λ减去α因子的值,再分别生成相关因子序列,带入式(4)中,比较它们与真实值的误差率,选择两个λ中较小的那个作为新的λ因子,重复此操作。为了减小误差率,可以在每次更新λ的时候,调整减小α因子。在对误差率的比较中,用均方