基于支持向量机的网络流量建模及预测

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1基于支持向量机的网络流量建模及预测摘要:流量建模与预测对于大规模网络的规划设计和网络资源管理等方面都具有积极的意义,是网络流量工程重要组成部分。本文结合网络流量的时间序列特性,提出一种基于支持向量机的网络流量预测算法,并针对由于支持向量机采用先验知识选择参数会导致不同数据对先验知识适应程度不同,给出了一个动态调整优化参数策略。实验仿真结果表明,该算法具有很好的预测精度和适用性。关键词:支持向量机;网络流量;回归预测Abstract:networktrafficmodelandpredictionissignificantfordesignofnetworkandresourcemanagement,anditisanimportantpartoftrafficengineering.Inthispaper,amethodoftrafficpredictionbasedonsupportvectormachineispresentedwithcharacteristicoftimeseriesofnetworktraffic,andstrategyofdynamicoptimizingparameterisgivenbecauseofthedefectofparameterselectionbasedonpriorknowledge.Theexperimentsimulationresultsshowthatthismethodisofhighprecisionandapplicability.Keywords:SVR;networkflowing;prediction0引言由于互联网业务量急剧增长,网络性能和网络安全方面的问题非常突出。通过对网络流量的测量与预测,可以了解网络之间的流量情况及趋势,从而更有效地进行网络优化,更好地进行路由设计和负载均衡的设计,并且可以发现潜在的攻击和入侵行为,实现网络入侵检测。针对网络流量的预测的研究,最初主要有基于AR、ARIMA的线性预测模型[1],算法较简单,但其自适应性较差。随着智能算法的不断发展,其良好的非线性映射能力、灵活有效的学习方式在预测领域的应用中表现出较大的优势和潜力,如BP神经网络、径向基函数神经网络等,已应用于网络流量、金融、水文等多种预测领域[2]。但是,神经网络是一种依赖经验的启发式技术,其学习过程采用经验风险最小化原则(ERM),在小样本情况下,容易出现过学习现象从而导致泛化能力低下;另外,神经网络算法的复杂性受网络结构复杂性和样本复杂性的影响较大。这些不足,使得神经网络在预测中的应用效果不如期望的那样好。支持向量机(supportvectormachines,SVM)[3]是一种新型的机器学习方法,它具有完备的理论基础和出色的学习性能,其突出特点是根据结构风险最小化原则(SRM)进行学习,可以从本质上提高学习机的泛化能力,不存在局部最小问题,并且运用核函数巧妙地解决了维数问题。为此,本文提出了一种基于支持向量机的网络流量预测模型,由于支持向量机采用先验知识选择参数,会导致不同数据对先验知识适应程度不同[4],本文给出了一个动态调整优化参数策略。基于改进支持向量机的网络流量模型,计算速度快,实时性好,相对于传统的线性流量模型具有更高的逼近能力和良好的自适应性。1支持向量机预测算法原理预测问题实质上属于回归问题,即通过函数估计方法建立输入变量与输出变量的关系模型,并根据模型进行未来输出值的预测。利用支持向量机进行函数估计算法思想在于,首先选择一非线性映射把样本向量从原空间映射到高维特征空间,在此高维特征空间构造最优决策函数;利用结构最小化原则,同时引入了损失函数,并巧妙的利用原空间的核函数取代了高维特征空间的点积运算,避免了复杂计算。算法原理如下:假定训练数据集记为liiiyx1),(,ix为第i个输入,iy为对应的期望输出,且)(iixfy,li1,)(xf为待估计的未知函数。首先用非线性映射TNxxxx))(,),(),(()(21把输入数据从原空间映射到N维特征空间,在高维空间实现线性回归,即被估计函数)(xf有如下形式:bxwxfNmmm1)()((1)其中),,(1N是线性权值向量;b为偏置。这样,在高维空间的线性回归对应着低维空间的非线性回归,定义损失函数:otherwiseyxfyxfforfyxL|)(||)(|0),,(2(2)需要求解的非线性回归问题就是最小化目标函数:liiifyxLCw12),,(||||21(3)式中:和C分别为两个由用户决定的自由参数,C是函数回归模型的复杂度和样本拟合精度之间的折衷,值越大,拟合程度越高,是回归允许的最大误差,控制支持向量的个数和泛化能力,其值越大,支持向量越少。引入非负的松弛变量i,得到等价的原问题:211min||||2..()10,1,liiiiiJwCstyfxil(4)相应的对偶问题为:,,1,0s.t.),(21||)(max11111liCCxxKyQiliilijiljjiliiliii(5)其中i为Lagrange乘子。K为满足Mercer条件的核函数。常用的核函数有:多项式核函数、Sigmoid核函数、高斯径向基函数核函数。通过(5)式求得以i和偏置b,则测试样本x对应的输出按下式进行预测:1()(,)liiifxKxxb(6)2基于改进支持向量机的网络流预测根据支持向量机的建模思想,传统的支持向量机预测算法在数据预处理部分对嵌入维数、核函数和SVM参数的选择由先验知识确定,由于不同的数据集对先验知识的适应性不同,针对以往算法流程的不足之处,提出基于改进支持向量机的网络流量预测方法。首先,对原始时间序列数据预处理,生成数据集并分组。假定现在相同时间间隔下的时间序列数据为1NiiXX先对其进行归一化数据预处理min()max()min()iiXXYXX,设11(,,,)iiiimxYYY,iimyY构成的1(,)liiixy就是由1NiiYY生成的数据集,也可以叫做样本点集合,其中m称为嵌入维数,l=N-m,,采用G-P算法[5]确定最小嵌入维数m。得到数据集之后,选择径向基函数(RBF)作为核函数,包含宽度参数δ、C,由于基于先验知识选择参数,会导致不同数据对先验知识适应程度不同。为此,本文采用动态调整优化参数,即用先验知识固定第1个参数,用列举法确定第2个参数,然后再固定已优化了的参数来确定第1个参数,最后将优化后的第2个参数在各自邻域内验证其最优性。在选定核函数和SVM参数后,输入样本集求得Lagrange乘子i(i=1,2,…,l)和偏置b,从而确定预测函数1()(,)liiifxKxxb,K为径向基函数;x是待预测的向量数据。为求得i和b,在此,我们修改式(4),以误差平方和(sumsquarederror,SSE)作为第二项损失函数[6],则原始问题变为:2211min||||2..()0,1,liiiiiJwCstyfxil(7)由此得Lagrange函数为322111||||2(())liiliiiiiLwCwxby(8)由0Lw,得1()liiiiwyx(9)由0Lb,得10lii(10)由0iL,得iiC(11)由0iL,得()0iiiwxby(12)消去式(9)~(12)中的w和i,得到关于b和i的线性方程组,可以求出b和i的解。根据生成的预测函数()fx进行预测,并进行预测误差评价分析。为了对预测效果进行评价,引入了以下衡量指标,其中Xk为序列实际观测值,kX为Xk的预测值,显然这两项指标越小,表明预测效果越准确。均方根误差(RMSE):21()NkkkXXRMSEN(13)相对均方根误差(RRMSE):21()NkkkkXXXRMSEN(14)如果误差较大则重新调整参数,再次进行预测。3网络流量预测实例仿真网络流量的统计一般采用两种方法:在线数据包过滤统计方法和基于SNMPMIB采集的方法。在路由器、交换机等一般网络设备的MIB库中,包含设备的网络端口信息,文中采用SNMP采集网络设备MIB采集的流量数据。流量样本数据采自Brandeis大学校园网的中心路由器于2008年3月14日24小时内的监测的流量数据(流量数据可以从上获得),按5分钟的时间尺度对该流量序列做聚集操作,获得了用于建模的流量序列,记为TSb,长度为250。核函数选择径向基函数,动态调整法选取参数后,流量预测结果如图1所示,预测RMSE为2.5136,RRMSE为0.021。各项误差指标对比如表1所列,在参数优化后,RMSE和RRMSE都减少了,表明参数优化后的效果优于优化前。05101520253035404550707580859095实际值预测值实际值图1网络流量预测结果参数优化情况RMSERRMSE优化参数后2.51360.021优化参数前2.56230.025表1参数优化RMSE和RRMSE比较4结论网络流量工程对于大规模网络的规划设计、网络资源管理以及实现网络入侵检测等方面都具有积极的意义,而流量建模与预测是网络流量工程的重要组成部分。传统的流量时间序列模型只适合于分析平稳过程及特殊的非平稳过程,难以刻画大规模网络的复杂流量行为。文中采用支持向量机回归方法进行网络流量预测,首先对观测序列进行归一化预处理,根据训练样本动态调整参数后,再进行预测。从实际预测结果来看,该方法具有较好的预测效果。参考文献[1]KantzH.非线性时间序列分析[M].北京:清华大学出版社,2000.[2]ChenBor-Sen,PengSen-Chueh,WangKu-Chen.TrafficModeling,Prediction,andCongestionControlforHigh-SpeedNetworks:AFuzzyARApproach[J].IEEETransactiononFuzzySystems,2000,8(5)4[3]VapnikVN.StatisticalLearningTheory[M].NewYorkWiley,1998.[4]刘胜,李妍妍.自适应GA-SVM参数选择算法研究[J].哈尔滨工程大学学报.2007,28(4)[5]魏海坤.神经网络结构设计的理论与方法[M].国防工业出版社,2005[6]WangHF,HuDJ.ComparisonofSVMandLS2SVMforRegression[C].NeuralNetworksandBrain,ICNN&B'05InternationalConference,2005,1.

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功