第28卷第8期Vol.28No.8控制与决策ControlandDecision2013年8月Aug.2013高斯过程回归方法综述文章编号:1001-0920(2013)08-1121-09何志昆,刘光斌,赵曦晶,王明昊(第二炮兵工程大学控制工程系,西安710025)摘要:高斯过程回归是基于贝叶斯理论和统计学习理论发展起来的一种全新机器学习方法,适于处理高维数、小样本和非线性等复杂回归问题.在阐述该方法原理的基础上,分析了其存在的计算量大、噪声必须服从高斯分布等问题,给出了改进方法.与神经网络和支持向量机相比,该方法具有容易实现、超参数自适应获取以及输出具有概率意义等优点,方便与预测控制、自适应控制、贝叶斯滤波等相结合.最后总结了其应用情况并展望了未来发展方向.关键词:高斯过程回归;机器学习;函数空间;协方差矩阵;近似法;不确定度中图分类号:TP181文献标志码:AOverviewofGaussianprocessregressionHEZhi-kun,LIUGuang-bin,ZHAOXi-jing,WANGMing-hao(DepartmentofControlEngineering,TheSecondArtilleryEngineeringUniversity,Xi’an710025,China.Correspondent:HEZhi-kun,E-mail:hezhikun0@sina.com)Abstract:Gaussianprocessregression(GPR)isanewmachinelearningmethodbythecontextofBayesiantheoryandstatisticallearningtheory.Itprovidesaflexibleframeworkforprobabilisticregressionandiswidelyusedtosolvethehigh-dimensional,small-sampleornonlinearregressionproblems.Itsprincipleisintroducedinthefunction-spaceviewandseverallimitationssuchascomputationaldifficultiesforlargedatasetsandrestrictivemodellingassumptionsforcomplexdatasetsarediscussed.Severalimprovedapproachesfortheselimitationsaresummarized.GPRissimpletoimplement,flexibletononparameterinferandself-adaptivetodeterminatehyperparametersincomparisonwithneuralnetworkandsupportvectormachines.TheattractivefeaturethatGPRmodelsprovideGaussianuncertaintyestimatesfortheirpredictionsallowsthemtobeseamlesslyincorporatedintopredictivecontrol,adaptivecontrolandBayesianfilteringtechniques.Finally,itsapplicationsaregivenandfutureresearchtrendsareprospected.Keywords:Gaussianprocessregression;machinelearning;functionspace;covariancematrix;approximations;uncertainty0引引引言言言机器学习是当前计算机科学和信息科学中一个重要的前沿领域,与模式识别和统计推断密切相关,正逐渐为各领域学者所重视.它是一门多学科交叉研究,研究内容和应用领域极其广泛,几乎囊括了所有人类认知领域.机器学习问题大体可以分为三大类:监督学习、无监督学习和强迫学习.根据经验数据(训练集)来学习输入-输出之间的映射关系,使得给定新的输入便可得到相应的输出值(即预测值),即为监督学习问题.根据输出值的类型,可以分为回归问题(输出为连续的)和分类问题(输出为离散的).其中,回归问题可以数学描述如下:假设有训练集𝐷={(𝒙𝑖,𝑦𝑖)∣𝑖=1,2,⋅⋅⋅,𝑛}=(𝑋,𝒚).其中:𝒙𝑖∈𝑅𝑑为𝑑维输入矢量,𝑋=[𝒙1,𝒙2,⋅⋅⋅,𝒙𝑛]为𝑑×𝑛维输入矩阵,𝑦𝑖∈𝑅为相应的输出标量,𝒚为输出矢量.回归的任务是根据训练集学习输入𝑋与输出𝒚之间的映射关系(𝑓(⋅):𝑅𝑑7→𝑅),预测出与新测试点𝒙∗对应的最可能输出值𝑓(𝒙∗).在监督学习中,通常采用两类方法来确定映射函数.第1类是参数化回归,即假设训练数据是通过一个由参数𝒘定义的函数𝑓(𝒙;𝒘)产生得到的.此时,函数映射𝑓(𝒙;⋅)和特定参数集𝒘共同定义了参数化模型,而参数化回归即是寻找一组使数据得到“最好”诠释的参数.该方法引入了一个新的问题:如何判收稿日期:2012-10-09;修回日期:2012-12-17.基金项目:国家863计划项目(2010AA7010213).作者简介:何志昆(1984−),男,博士生,从事机器学习、非线性滤波及组合导航的研究;刘光斌(1963−),男,教授,博士生导师,从事系统辨识与仿真、卫星信号仿真等研究.1122控制与决策第28卷断一个模型是最好的,或者一个模型比另一个模型更好?一种方法是寻找一组能使某一损失函数𝐿(𝒘)最小化的参数.通常采用的损失函数为二次损失函数,典型的例子有最小二乘多项式回归、最小二乘BP神经网络等.这种方法存在明显的缺陷:仅致力于在训练集上降低模型误差.若为了降低模型误差而一味增加模型复杂度,则易导致过拟合,尽管在训练集上回归精度较高,但其泛化能力或预测性能不佳.为了避免过拟合,可以使用一个相对简单的模型,它忽略了复杂特征和噪声,相对比较平滑.但是模型过于简单也会造成预测性能差.另一种方法是极大似然法,它不需要损失函数.首先由假定的噪声分布得到训练集的联合概率密度(即似然函数),再通过寻找使似然函数最大化的参数𝒘来获得回归模型.如果噪声分布满足高斯分布,则通过比较似然函数和二次损失函数不难发现,该似然函数的负对数与二次损失函数成一定比例关系,因而表明了这两种方法在本质上是一样的.为了避免过拟合,可以采用第2类方法,即贝叶斯回归.该方法定义了一个函数分布,赋予每一种可能的函数一个先验概率,可能性越大的函数,其先验概率越大.但是可能的函数往往为一个不可数集,即有无限个可能的函数.随之引入一个新的问题:如何在有限的时间内对这些无限的函数进行选择?一种有效的解决方法即是高斯过程回归(GPR).GPR是近年发展起来的一种机器学习回归方法,它有着严格的统计学习理论基础,对处理高维数、小样本、非线性等复杂的问题具有很好的适应性,且泛化能力强.与神经网络、支持向量机相比,GPR具有容易实现、超参数自适应获取、非参数推断灵活以及输出具有概率意义等优点,在国外发展很快,并取得了许多研究成果,现已成为国际机器学习领域的研究热点[1-3];近几年也逐步得到国内学者的重视,在许多领域得到了成功应用[4-6].本文将首先阐述GPR的基本原理,对GPR存在的主要问题进行探讨,总结了相应的改进方法.最后对GPR的应用进行了总结并指出其未来发展趋势.1高高高斯斯斯过过过程程程回回回归归归原原原理理理1.1预预预测测测从函数空间角度出发,定义一个高斯过程(GP)来描述函数分布,直接在函数空间进行贝叶斯推理[1,7].GP是任意有限个随机变量均具有联合高斯分布的集合,其性质完全由均值函数和协方差函数确定,即{𝑚(𝒙)=𝑬[𝑓(𝒙)],𝑘(𝒙,𝒙′)=𝑬[(𝑓(𝒙)−𝑚(𝒙))(𝑓(𝒙′)−𝑚(𝒙′))],其中𝒙,𝒙′∈𝑅𝑑为任意随机变量.因此GP可定义为𝑓(𝒙)∼GP(𝑚(𝒙),𝑘(𝒙,𝒙′)).为了符号上的简洁,通常对数据作预处理,使其均值函数等于0.对于回归问题,考虑如下模型:𝑦=𝑓(𝒙)+𝜀.(1)其中:𝒙为输入向量,𝑓为函数值,𝑦为受加性噪声污染的观测值,进一步假设噪声𝜀∼𝑁(0,𝜎2𝑛).可以得到观测值𝒚的先验分布为𝒚∼𝑁(0,𝐾(𝑋,𝑋)+𝜎2𝑛𝐼𝑛),以及观测值𝒚和预测值𝑓∗的联合先验分布为[𝒚𝑓∗]∼𝑁(0,[𝐾(𝑋,𝑋)+𝜎2𝑛𝐼𝑛𝐾(𝑋,𝒙∗)𝐾(𝒙∗,𝑋)𝑘(𝒙∗,𝒙∗)]).其中:𝐾(𝑋,𝑋)=𝐾𝑛=(𝑘𝑖𝑗)为𝑛×𝑛阶对称正定的协方差矩阵,矩阵元素𝑘𝑖𝑗=𝑘(𝒙𝑖,𝒙𝑗)用来度量𝒙𝑖和𝒙𝑗之间的相关性;𝐾(𝑋,𝒙∗)=𝐾(𝒙∗,𝑋)T为测试点𝒙∗与训练集的输入𝑋之间的𝑛×1阶协方差矩阵;𝑘(𝒙∗,𝒙∗)为测试点𝒙∗自身的协方差;𝐼𝑛为𝑛维单位矩阵.由此可以计算出预测值𝑓∗的后验分布为𝑓∗∣𝑋,𝒚,𝒙∗∼𝑁(¯𝑓∗,cov(𝑓∗)).其中¯𝑓∗=𝐾(𝒙∗,𝑋)[𝐾(𝑋,𝑋)+𝜎2𝑛𝐼𝑛]−1𝒚,(2)cov(𝑓∗)=𝑘(𝒙∗,𝒙∗)−𝐾(𝒙∗,𝑋)×[𝐾(𝑋,𝑋)+𝜎2𝑛𝐼𝑛]−1𝐾(𝑋,𝒙∗).(3)则ˆ𝜇∗=¯𝑓∗,ˆ𝜎2𝑓∗=cov(𝑓∗)即为测试点𝒙∗对应预测值𝑓∗的均值和方差.1.2训训训练练练GPR可以选择不同的协方差函数,常用的协方差函数有平方指数协方差,即𝑘(𝒙,𝒙′)=𝜎2𝑓exp(−12(𝒙−𝒙′)T𝑀−1(𝒙−𝒙′)).其中:𝑀=diag(𝑙2),𝑙为方差尺度,𝜎2𝑓为信号方差.参数集合𝜽={𝑀,𝜎2𝑓,𝜎2𝑛}即为超参数,一般通过极大似然法求得.首先建立训练样本条件概率的负对数似然函数𝐿(𝜽)=−log𝑝(𝒚∣𝑋,𝜽),并令其对超参数𝜽求偏导;然后采用共轭梯度法、牛顿法等优化方法对偏导数进行最小化以得到超参数的最优解.这里,负对数似然函数𝐿(𝜽)及其关于超参数𝜽的偏导数形式如下所示:𝐿(𝜽)=12𝒚T𝐶−1𝒚+12log∣𝐶∣+𝑛2log2π,∂𝐿(𝜽)∂𝜃𝑖=12tr((𝜶𝜶T−𝐶−1)∂𝐶∂𝜃𝑖).其中𝐶=𝐾𝑛+𝜎2𝑛𝐼𝑛,𝜶=(𝐾+𝜎2𝑛𝐼𝑛)−1𝒚=𝐶−1𝒚.第8期何志昆等:高斯过程回归方法综述1123获得最优超参数后,利用式(2)和(3)便可得到测试点𝒙∗对应的预测值𝑓∗及其方差ˆ𝜎2𝑓∗.2GPR存存存在在在的的的主主主要要要问问问题题题及及及改改改进进进方方方法法法尽管GPR方法具有容易实现、超参数自适应获取以及预测输出具有概率意义等优点,但是它目前仍存在一些问题,主要有两个方面:一是计算量大;二是局限于高斯噪声分布假设.2.1降降降低低低计计计算算算量量量的的的改改改进进进方方方法法法GPR的非参数性质直接导致其计算量大的问题.如前所述,训练中超参数一般是通过最优化边缘似然获取的.每一次梯度计算都需要对协方差矩阵𝐾𝑛+𝜎2𝑛𝐼𝑛求逆,因此计算量为𝑂(𝑛3×梯度计算的次数).预测时,每个测试点的预测计算量为𝑂(𝑛2).当处理大数据集时,计算量将成为限制高斯过程回归方法应用的一大瓶颈.过去20年里,为了解决上述问题,人们做了大量的工作,提出了许多有效的近似方法,大体上可以分为以下3类.2.1.1数数数据据据子子子集集集(SD)近近近似似似法法法在众多降低计算复杂度的方法中,最