高斯过程在机器学习中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

西安郵電大学科研训练报告书基于高斯过程在机器学习中的应用摘要高斯过程是近年来发展起来的一种新的机器学习方法,它有着严格的统计学习理论基础,对处理高维数非线性小样本复杂问题具有良好的适应性。对列车精准停车问题的这种复杂的非线性问题,将高斯过程机器学习方法应用于此问题,并提出相应的模型,减少数据间复杂的内在物理或其他关系。很多工程实例研究表明,高斯过程机器学习模型是科学可行的,预测精度高,简单实用,对很多问题问题具有较好的适用性。关键词:高斯过程;机器学习;列车精准停车AbstractGaussianprocesses(GP)isanewlydevelopedmachinelearningmethodbasedonthestrictstatisticallearningtheory.GPiscapableofsolvingthehighlynonlinearproblemwithsmallsamplesandhighdimensions.Precisetrainstoppingcomplexnonlinearproblem,GPmachinelearningmodelappliedtothisproblem,andproposeamodeltoreducethecomplexityofdatabetweentheintrinsicphysicalorotherrelationship.Casestudiesshowthatmanyoftheworks,GPmachinelearningmodelisscientificandfeasible,thepredictionaccuracyishigh,simpleandpractical,onmanyissuestheproblemhasgoodapplicability.KeyWords:Gaussianprocesses;machinelearning;precisetrainstopping1引言列车(包括火车、地铁、轻轨等轨道交通工具)的精确停车是轨道交通控制系统中的一项关键技术。对于有效使用站台屏蔽门、保证乘客安全、较少乘客换乘时间等有着至关重要的作用。然而就实际物理模型建模时收到很多方面的制约,且耗费大量的金钱。通过研究,将实际上依赖于物理模型的建立和控制参数的调整,而采用对数据本身的练习进行学习和建模。如果能从数据中学习到列车精确停车的规律,则可以在保证列车达到精确停车所需指标的同时,大量节省硬件方面的费用,并建立数据规律,同时使结果与实际模型相联系,促进物理模型的建立。因此,在利用机器学习来分析列车精确停车问题时,不需要过多关注各种复杂的如轨道坡度、摩擦系数、天气状况、乘客数量等外在因素,而只需关注对精度有明显影响的因素如停车的初始速度及距离等。在本文中,将研究机器学习领域的高斯过程(GaussianProcess,GP),并以实际的列车停车数据做了相关评测。2.高斯过程在机器学习领域中,GP是指在高斯随机过程与贝叶斯学习理论基础上发展起来的一种机器学习方法。在统计学理论中,GP是这样的一个随机过程:其任意有限变量集合的分布都是高斯分布,即对任意整数1n及任意的一族随机变量X,与其对应的t时刻的过程状态)(xf的联合概率分布服从n维高斯分布。GP的全部统计特征完全由它的均值)(tm和协方差函数),('ttk来确定,其定义式表示如下:)),(),((~)('ttktmGPtf(1)GP可用于解决回归和分类两类问题,受篇幅限制,本文仅对GP回归模型的基本原理做简单介绍,具体参见文献[1]。假设有n个观察数据的训练集},...,1|),{(niyxDii,d维输入矢量diRx,相应的输出标量Ryi。如果X表示nd维输入矩阵,y表示输出矢量,那么训练集),(yXD,对于新的输入*x,GP模型的任务是根据先验知识预测出与*x相对应的输出值*y。假设观察目标值y被噪声腐蚀,它与真实输出值t相差:ty(2)其中为独立的随机变量,符合高斯分布,均值为0,方差为2n,即),0(~2nN(3)观察目标值y的先验分布为),0(~2IKNyn(4)式中:),(XXKK为nn阶对称正定的协方差矩阵,矩阵中的任一项ijK度量了ix和jx的相关性。n个训练样本输出y和1个测试样本输出*y所形成的联合高斯先验分布为:),(),(),(),(,0~****2*xxkxXKxXKIXXKNyyn(5)式中,),(*xXK是测试点*x与训练集的所有输入点X的1n阶协方差矩阵,可简写为)(*xk;),(**xxk是测试点*x自身的协方差。GP可选择不同的协方差函数。协方差函数需要满足:对任一点集都能够保证产生一个非负正定协方差矩阵。常用的协方差函数为:pqnqpfqpxxlxxk2222)(21exp),((6)协方差函数的超参数l、f、n对预测结果的影响甚大。最优超参数可通过极大似然法获得,即通过建立训练样本条件概率的对数似然函数对超参数求偏导,再采用共轭梯度优化方法搜索出超参数的最优解。对数似然函数的形式为:(7)获得最优超参数后,下一步就可以进行预测,具体过程是:根据贝叶斯原理在训练集的基础上预测出与*x对应的最可能的输出值。采用贝叶斯原理的目的是利用观察到的真实数据不断更新概率预测分布,即给定新的输入*x、训练集的输入值X和观察目标值y的条件下,推断出*y的最大可能的预测后验分布),,|(**yXxyp,预测后验分布是高斯型的:)(),(~,,|*^*^**xxyNyXxy(8)*y的均值和方差为yIKxkxynT12**^))(()((9))())((),()(*12****^xkIKxkxxkxnT(10)2.2建立列车精准停车的高斯过程模(1)根据列车精准停车的若干实测值建立学习样本kiyxii,...,1),,(,输入向量ix代表列车精准停车的影响因素;输出标量iy代表实测地下水位埋深。(2)当列车精准停车的各影响因素的数量级相差较大或同一控制因素的离散性过大时,不利于GP的学习,需要对样本数据和预测样本数据进行如下标准化处理:sxpii/(11)2112)(11niixxnsniixnx11式中:ip为标准化后的值,ix第i个指标。(3)对学习样本进行学习,通过学习样本的对数似然极大化获得最优的超参数。(4)根据式(9)获得测试样本*x(新的影响列车精准停车的主要因素)对应的列车精准停2ln2||ln21)(21)|(ln212nIKIKyXypLnnT车的预测均值*y。3结语(1)在实际应用中,应尽可能多地收集与分析列车精准停车相关的各种影响因素的信息资料,通过丰富学习样本提高高斯过程学习的效果,若能充分考虑自然环境的影响因素并把相关信息纳入学习样本,可以进一步提高高斯过程模型预测结果的。(2)在实际应用中高斯过程机器学习,可以将复杂的物理实际模型抽象为内在的数据联系,以多次试验资料作为数据源进行机器学习,就能推断出准确可靠的预测结果,对列车的精准停车的动态预测具有较强的适用性,为克服精准停车测量时条件高度复杂或测量资料不充分情况下数值方法模拟困难的局限性提供有效的途径。(3)实际工程中较多出现的是小样本预测问题,与神经网络相比较,高斯过程机器学习方法对处理小样本预测问题较优,具有很强的适应性。但对于大样本预测的问题,大型协方差矩阵的存储和运算将导致高斯过程的计算负担稍显繁重,为提高高斯过程的计算效率,建议采用稀疏化技术来处理。参考文献[1]SeegerM.Gaussianprocessesformachinelearning[J].InternationalJournalofNeuralSystem,2004,14(2):69106.[2]周骥.机器学习在列车精确停车问题的应用.计算机工程与应用.2010.[3]苏国韶.高斯过程机器学习方法在地下水位预测中的应用.中国农村水利水电.2008

1 / 5
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功