书书书第38卷 第8期2015年8月计 算 机 学 报CHINESEJOURNALOFCOMPUTERSVol.38No.8Aug.2015 收稿日期:20130812;最终修改稿收到日期:20140828.本课题得到国家“九七三”重点基础研究发展规划项目基金(2012CB720500)、国家自然科学基金(21006127)、中国石油大学(北京)基础学科研究基金项目(JCXK201107)资助.刘建伟,男,1966年生,博士,副研究员,主要研究方向为智能信息处理、复杂非线性系统分析、预测与控制、算法分析与设计.Email:liujw@cup.edu.cn.刘 媛,女,1989年生,硕士研究生,主要研究方向为机器学习、数字图像处理.罗雄麟,男,1963年生,博士,教授,主要研究领域为智能控制、复杂非线性系统分析、预测与控制.半监督学习方法刘建伟 刘 媛 罗雄麟(中国石油大学(北京)自动化研究所 北京 102249)摘 要 半监督学习研究如何同时利用有类标签的样本和无类标签的样例改进学习性能,成为近年来机器学习领域的研究热点.鉴于半监督学习的理论意义和实际应用价值,系统综述了半监督学习方法.首先概述了半监督学习的相关概念,包括半监督学习的定义、半监督学习研究的发展历程、半监督学习方法依赖的假设以及半监督学习的分类,然后分别从分类、回归、聚类和降维这4个方面详述了半监督学习方法,接着从理论上对半监督学习进行了分析并给出半监督学习的误差界和样本复杂度,最后探讨了半监督学习领域未来的研究方向.关键词 半监督学习;有类标签的样本;无类标签的样例;类标签;成对约束中图法分类号TP181 犇犗犐号10.11897/SP.J.1016.2015.01592犛犲犿犻犛狌狆犲狉狏犻狊犲犱犔犲犪狉狀犻狀犵犕犲狋犺狅犱狊LIUJianWei LIUYuan LUOXiongLin(犚犲狊犲犪狉犮犺犐狀狊狋犻狋狌狋犲狅犳犃狌狋狅犿犪狋犻狅狀,犆犺犻狀犪犝狀犻狏犲狉狊犻狋狔狅犳犘犲狋狉狅犾犲狌犿,犅犲犻犼犻狀犵 102249)犃犫狊狋狉犪犮狋 Semisupervisedlearningisusedtostudyhowtoimproveperformanceinthepresenceofbothexamplesandinstances,andithasbecomeahotareaofmachinelearningfield.Inviewofthetheoreticalsignificanceandpracticalvalueofsemisupervisedlearning,semisupervisedlearningmethodswerereviewedinthispapersystematically.Firstly,someconceptsaboutsemisupervisedlearningweresummarized,includingdefinitionofsemisupervisedlearning,developmentofresearch,assumptionsreliedonsemisupervisedlearningmethodsandclassificationofsemisupervisedlearning.Secondly,semisupervisedlearningmethodsweredetailedfromfouraspects,includingclassification,regression,clustering,anddimensionreduction.Thirdly,theoreticalanalysisonsemisupervisedlearningwasstudied,anderrorboundsandsamplecomplexityweregiven.Finally,thefutureresearchonsemisupervisedlearningwasdiscussed.犓犲狔狑狅狉犱狊 semisupervisedlearning;labeledexamples;unlabeledinstances;label;pairwiseconstraints1 引 言半监督学习(SemiSupervisedLearning,SSL)是机器学习(MachineLearning,ML)领域中的研究热点,已经被应用于解决实际问题,尤其是自然语言处理问题.SSL被研究了几十年,国内外涌现出大量关于该领域的研究工作,研究人员在这个问题上已经取得了显著的进步,目前已经有多个文献对SSL领域进行了综述,例如文献[1]综述了早期SSL的一些进展,文献[2]对SSL进行了比较全面的综述,文献[3]对基于不一致的SSL方法进行了综述,文献[4]详细综述了协同训练风范.由于SSL研究的发展非常迅速,因此需要有更新的综述来对近几年SSL研究的相关情况进行总结.鉴于SSL的理论意义和实际应用价值,本文系统综述SSL方法的研究进展,为进一步深入研究SSL理论和拓展其应用领域奠定一定的基础.本文第2节概述SSL的基本概念、研究历程、依赖的假设及分类;第3节到第6节分别介绍用于分类、回归、聚类、降维问题的SSL方法;第7节对SSL进行理论分析,综述SSL的抽样复杂性和误差界;第8节展望未来的研究方向;第9节对全文进行总结.2 半监督学习概述ML有两种基本类型的学习任务:(1)监督学习(SupervisedLearning,SL)根据输入输出样本对犔={(狓1,狔1),…,(狓犾,狔犾)}学习输入到输出的映射犳:犡→犢,来预测测试样例的输出值.SL包括分类(Classification)和回归(Regression)两类任务,分类中的样例狓犻∈犚犿,类标签狔犻∈{犮1,犮2,…,犮犆},犮犼∈Ν;回归中的输入狓犻∈犚犿,输出狔犻∈犚.具有代表性的SL方法有线性判别分析(LinearDiscriminativeAnalysis,LDA)、偏最小二乘(PartialLeastSquare,PLS)、支持向量机(SupportVectorMachine,SVM)、犓近邻(犓NearestNeighbor,犓NN)、朴素贝叶斯(NaiveBayes)、逻辑斯蒂回归(LogisticRegression)、决策树(DecisionTree)和神经网络等.(2)无监督学习(UnsupervisedLearning,UL)利用无类标签的样例犝={狓1,…,狓狀}所包含的信息学习其对应的类标签犢^狌=[狔^1…狔^狀]T,由学习到的类标签信息把样例划分到不同的簇(Cluster)或找到高维输入数据的低维结构.UL包括聚类(Clustering)和降维(DimensionalityReduction)两类任务.具有代表性的UL方法有犓均值(犓Means)、层次聚类(HierarchicalClustering)、主成分分析(PrincipalComponentAnalysis,PCA)、典型相关分析法(CanonicalCorrelationAnalysis,CCA)、等距特征映射(IsometricFeatureMapping,ISOMAP)、局部线性嵌入(LocallyLinearEmbedding,LLE)和局部保持投影(LocalityPreservingProjections,LPP)等.在许多ML的实际应用中,如网页分类、文本分类、基因序列比对、蛋白质功能预测、语音识别、自然语言处理、计算机视觉和基因生物学,很容易找到海量的无类标签的样例,但需要使用特殊设备或经过昂贵且用时非常长的实验过程进行人工标记才能得到有类标签的样本,由此产生了极少量的有类标签的样本和过剩的无类标签的样例[5].因此,人们尝试将大量的无类标签的样例加入到有限的有类标签的样本中一起训练来进行学习,期望能对学习性能起到改进的作用,由此产生了SSL[12],如图1所示.SSL避免了数据和资源的浪费,同时解决了SL的模型泛化能力不强和UL的模型不精确等问题.图1 半监督学习示意21 半监督学习研究的发展历程SSL的研究历史可以追溯到20世纪70年代,这一时期,出现了自训练(SelfTraining)、直推学习(TransductiveLearning)、生成式模型(GenerativeModel)等学习方法.Scudder[6]、Fralick[7]和Agrawala[8]提出的自训练方法是最早将无类标签的样例用于SL的方法.该方法是打包算法,在每一轮的训练过程中反复运用SL方法,将上一轮标记结果最优的样例和它的类标签一起加入到当前训练样本集中,用自己产生的结果再次训练自己.这种方法的优点是简单,缺点是学习性能依赖于其内部使用的SL方法,可能会导致错误的累积.直推学习的概念最先由Vapnik于1974年提出[1].与归纳学习(InductiveLearning)不同,直推学习只预测当前训练数据和测试数据中无类标签的样例的类标签,而不推断整个样本空间的广义决策规则.Cooper等人提出的生成式模型假设生成数据的概率密度函数为多项式分布模型,用有类标签的样本和无类标签的样例估计该模型中的参数[1].后来,Shahshahani和Landgrebe将这种每类单组分的场景拓展到每类多组分,Miller和Uyar进一步将其推广[1].这一时期,McLachlan等人研究用无类标签的样例估计费希尔线性判别(FisherLinearDiscriminative,FLD)规则的问题[1].对SSL的研究到了20世纪90年代变得更加狂热,新的理论的出现,以及自然语言处理、文本分类和计算机视觉中的新应用的发展,促进了SSL的发展,出现了协同训练(CoTraining)和转导支持向量机(TransductiveSupportVectorMachine,TSVM)等39518期刘建伟等:半监督学习方法新方法.Merz等人[9]在1992年提出了SSL这个术语,并首次将SSL用于分类问题.接着Shahshahani和Landgrebe[10]展开了对SSL的研究.协同训练方法由Blum和Mitchell[11]提出,基于不同的视图训练出两个不同的学习机,提高了训练样本的置信度.Vapnik和Sterin[12]提出了TSVM,用于估计类标签的线性预测函数.为了求解TSVM,Joachims[13]提出了SVMlight方法,DeBie和Cristianini[14]将TSVM放松为半定规划问题从而进行求解.许多研究学者研究将期望最大算法(ExpectationMaximum,EM)与高斯混合模型(GaussianMixtureModel,GMM)相结合的生成式SSL方法[1516].Blum等人[17]提出了最小割法(Mincut),首次将图论应用于解决SSL问题.Zhu等人[18]提出的调和函数法(HarmonicFunction)将预测函数从离散形式扩展到连续形式.由Belkin等人[19]提出的流形正则化法(ManifoldRegularization)将流形学习的思想用于SSL场景.Klein等人[20]提出首个用于聚类的半监督距离度量学习方法,学习一种距离度量.研究人员通过理论研究和实验对SSL的学习性能进行了分析.Castelli和Cover[21]在服从高斯混合分布的无类标签的样例集中引入了一个新的有类标签的样本,通过理论分析证明了在无类标签的样例数量无限的情况下,可识别的混合模型的分类误差率以指数形式快速收敛到贝叶斯风险.Sinha和Belkin[22]从理论上研究了当模型不完善时使用无类标签的样例对学习性能产生的影响.Balcan和Blum[23]以及Singh等人[24]用概率近似正确(ProbablyApproximatelyCorrect,PAC)理论和大偏差界理论分析了基于判别方法的SSL方法的