基于支持向量机的网络流量预测及对网络业务流的准入控制研究生姜晗音(2005216287)导师金志刚选题•基于支持向量机的网络流量预测准入控制分为两部分:网络流量流量预测网络业务流的准入控制网络业务流量预测的意义•网络业务预报在准入控制、拥塞控制和动态带宽分配等许多方面都有非常重要的意义。根据测量的历史数据,尽可能精确的预报未来时刻的网络流量,从而作出决策,对网络业务流进行控制.网络业务流量预测已有方法•目前广泛采用基于时间序列的预测方法,其基本思想是:将在连续时间上的观察值排列成一组随机序列,除去个别的因偶然原因引起的异常观测值外,时间序列是一组依赖于时间t的随机变量。该预报方法把预报问题分为三个阶段:(1)模型识别;(2)模型参数估计和模型的检验;(3)预报应用。在网络业务预报中用的较多预报模型有AR、ARMA、ARIMA、FARIMA以及神经网络等。网络业务流量预测已有方法的不足•各种时间序列预测方法的不足:(1)AR、ARMA、ARIMA等模型只能处理短相关业务,这些研究没有考虑业务的长相关性质,故采用传统的短相关模型作为预报或训练的基础,没有全面反映业务的真实统计特性。(2)FARIMA用于实际网络业务预报中,该模型可以同时描述网络业务的长相关和短相关特性,但是,这个算法本身的复杂度很高,所以应用受到一定的限制。(3)神经网络存在收敛速度慢和局部极小点问题.基于支持向量机预测的优点•(1)可以解决小样本情况下的机器学习问题,结构简单,便于应用;•(2)性能优良,从理论上保证了模型较强的泛化能力(用结构风险最小替代经验风险最小);•(3)二次优化问题从理论上存在唯一解,从而避免了陷入局部极小;•(4)模型在输入数据中选择有限的支持向量,速度快。•(5)具有较强的处理非线性数据的能力。SVM目前的应用情况•基于支持向量机的预测技术已经应用到的领域:生物医学领域,电力系统,交通流量预测,在计算机网络中也得到了很好的应用。•支持向量机已经被证实可以用于网络流量的预测,但对于各种参数的选择没有明确的方案,并且均采用枚举和手动选参的方式,效率很低.目前尚没有使用该方法进行网络流量预测并据此应用于实际的网络业务流控制中。SVM实现机制•首先通过核函数做非线性变换,将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,构建数据特征模型,通过该模型及新的输入数据预测输出结果。预报评价指标•绝对误差AE•平均绝对误差MAE•均方误差MSE11ˆˆ||,||ntttttAExxMAExxn211ˆntttMSExxnSVM预报方式•单步预测:对一个时间序列,假设当前时刻为t,已知在t时刻之前的n个数据,预报t+1时刻的值(即第n+1个值),其方法就是找出历史值与未来值之间的某种函数关系,表示为:xt+1=g(xt,xt-1,……xt-(n-1))SVM多步预测(1)迭代预报法是建立在一步预报基础上的,将上一步预报值作为下一步预报的输入值进行预报,迭代K次,具体过程如下:11(1)211(2)1211ˆ(,,...,)ˆˆ(,,,...,)...ˆˆˆˆ(,,,,,)ttttntttttntktktktttkxgxxxxgxxxxxgxxxxxxSVM多步预报(2)直接预报法就是根据已知序列建立的模型直接预报第t+k个值,即目前已经证实了多步预报中的直接预报效果好于迭代预报.所以在我的实验中采用直接预报方法.1(1)ˆ(,,...,),tktttnxgxxxtnSVM核函数的选择•核函数:用不同核函数可以构造实现输入空间中不同类型的非线性决策学习机,从而导致不同的支持向量算法。四种常用核函数:1.线性核函数(LinearKernel)2.多项式核函数(PolynomialKernel)3.径向基核函数RBF(RadialBasisFunction)4.二层神经网络内积Sigmoid核函数线性核函数是多项式核函数的一种特例.SVM参数的选择•主要参数:1.惩罚系数C决定了超出对不敏感系数ε的样本的惩罚程度.如果C值取得过大,则问题更倾向于经验最小,而忽略对结构复杂程度的考虑,反之则更多考虑了问题的复杂程度,而忽略经验数据的作用,因此,C值过大或者过小,都会使系统泛化能力变差。SVM参数的选择2.不敏感系数ε不敏感系数ε是控制函数拟合误差的大小,从而控制支持向量的个数和泛化能力,它反映模型对输入变量所含噪声的敏感程度。真实数据选取•Sigcomm01无线网络数据•天津大学网络实验床截取的数据•使用winpcap截取数据信息初步实验结果•聚集的时间粒度选择不同时间粒度聚集的网络流量数据预测得出不同的精确度.目前在秒级和毫秒级的预测结果显示秒级比毫秒级具有明显更好的的预测准确率.•SVM嵌入维数选取(1)嵌入维数的大小决定了所需时间序列长度的大小。(2)以不同嵌入维数的数据作为输入,在预测时间和准确率方面差别较大,需要在准确性与时间耗费方面找到权衡的值.初步实验结果•参数选择C与ε的取值要折中目前C和ε的选参机制是采用网格搜索法。网格搜索法就是首先确定每个参数的取值范围,对每个参数取值范围按照按照一定步长插值,得出N组参数组合。对每组参数分别代入三种核函数,找出预测准确率最高的组合.目前得出的参数选取范围很大,还需要进一步缩小范围初步实验结果•核函数四种核函数对应四种不同的将数据转化为高维空间数据的方法.•目前发现多项式核函数和径向基核函数的效果明显好于二层神经网络内积核函数,在实验中使用一定权值来综合运用这两种核函数进行预测,从而达到比单个核函数更好的效果..初步试验结果•核函数参数的选择关于参数选择问题的思路主要有两种:交叉验证核校准•最终目标:建立自动选参模型.准入控制•准入控制通过限制网络中的流量达到对网络服务质量进行控制的目的.目前出现的准入控制根据其研究策略的不同分为:基于模型的准入控制和基于测量的准入控制二类。•基于模型的准入控制是应用预先给出业务流特性参数的描述,网络根据其可用资源的情况进行准入控制;基于测量的准入控制则是通过测量网络的实际负载,结合请求中较为简单的流说明(如峰值速率)进行准入控制。准入控制•利用SVM的预测结果对网络业务流进行准入控制是一种基于模型的准入控制.•仿真时采用将准入控制和资源预留相结合的方式提高网络业务流的Qos.使用单步预测值和多步预测值来考虑请求分配带宽和请求预留带宽的要求是否能得到满足,从而进行准入控制.进度安排•2006-05至2006-07学习文献资料,了解svm原理和准入控制方法。•2006-08至2006-10使用大量数据样本做实验,寻找核函数、参数以及预测方式的选择规律。•2006-10至2006-12总结实验结果,确定预测模型。•2006-12至2007-03利用预测结果进行准入控制,建立仿真模型。参考文献1.张浩然,支持向量机的学习方法综述,浙江师范大学学报,20052.齐志泉,支持向量机中的核参数选择问题,控制工程,20053.V.CherkasskyandY.Ma,PracticalSelectionofSVMparametersandNoiseEstimationforSVMregression,NeuralNetworks,2004,17(1):113~1264.X.P.GaoandF.Xiao,Short-TermPredictionofChaoticTimeSeriesbyWaveletNetworks,inProceedingsofthe5thWorldCongressonIntelligentControlandAutomation,2004,1931~19355.刘向东,支持向量机最优模型选择的研究,计算机研究与发展,2005。等Thanks