1半监督学习综述(Semi-supervisedLearning)2有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建立模型用于预测未见示例的标记(label)。很难获得大量的标记样本。无监督的学习:无训练样本,仅根据测试样本的在特征空间分布情况来进行标记,准确性差。半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。机器学习4半监督学习的过程5传统机器学习算法需要利用大量有标记的样本进行学习。随着信息技术的飞速发展,收集大量未标记的(unlabeled)样本已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。如何利用大量的未标记样本来改善学习性能成为当前机器学习研究中备受关注的问题。优点:半监督学习(Semi-supervisedLearning)能够充分利用大量的未标记样本来改善学习机的性能,是目前利用未标记样本进行学习的主流技术。半监督学习背景6半监督学习的发展历程未标记示例的价值实际上早在上世纪80年代末就已经被一些研究者意识到了。R.P.Lippmann.Patternclassificationusingneuralnetworks.IEEECommunications,1989,27(11):47-64.一般认为,半监督学习的研究始于B.Shahshahani和D.Landgrebe的工作,最早是在这篇文章当中提到的。B.Shahshahani,D.Landgrebe.Theeffectofunlabeledsamplesinreducingthesmallsamplesizeproblemandmitigatingthehughesphenomenon.IEEETransactionsonGeoscienceandRemoteSensing,1994,32(5):1087-1095.D.J.Miller和H.S.Uyar认为,半监督学习的研究起步相对较晚,可能是因为在当时的主流机器学习技术(例如前馈神经网络)中考虑未标记示例相对比较困难。随着统计学习技术的不断发展,以及利用未标记示例这一需求的日渐强烈,半监督学习才在近年来逐渐成为一个研究热点。D.J.Miller,H.S.Uyar.Amixtureofexpertsclassifierwithlearningbasedonbothlabelledandunlabelleddata.In:M.Mozer,M.I.Jordan,T.Petsche,eds.AdvancesinNeuralInformationProcessingSystems9,Cambridge,MA:MITPress,1997,571-5777在进行Web网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但Web上存在着无数的网页,它们都可作为未标记示例来使用。这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病灶都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分?半监督学习的应用领域8半监督学习应用实例语音识别(Speechrecognition)文本分类(Textcategorization)词义解析(Parsing)视频监控(Videosurveillance)蛋白质结构预测(Proteinstructureprediction)9半监督学习的主要方法最大期望(EM算法)自训练(Self-training)协同训练(Co-training)转导支持向量机(TransductiveSupportVectorMachines)基于图的方法(graph-basedmethods)现状与展望101.最大期望(EM算法)背景:期望最大化(EM)方法和朴素贝叶斯方法有着共同的理论基础。期望最大化是一种基于循环过程的最大似然参数估计方法,用于解决带缺失数据的参数估计问题。是最早的半监督学习方法。前提:样本数据分为标记样本和未标记样本,按照统计的观点,对于每一个样本的产生,其背后都有一个模型,即样本生成模型(generativemodels)。样本生成模型的参数先由标记样本确定,再通过标记样本和利用当前模型判断标记的未标记样本共同调整。111.1EM算法的特点定义:具有隐状态变量的分布中参数的最大似然估计。适用:能够产生很好的聚类数据困难:如果把在参数下的期望为。那么,在估计状态变量X时,估值当然应该用条件期望然而这时就需要知道参数的值;另一方面,为了知道,又必须先知道X的估值(作为状态已知样本值)E(|)XEXYX121、设定初值2、(E-步骤)对,令3、(M-步骤)(修正的估计)取使之满足:其中E-步骤为取条件期望(expectation),而M-步骤为取最大(maximum)。这种交替的方法称为EM方法。优点:算法构思很简单,并且在数学上有很严格的理论基础缺点:计算量过大,对生成模型的依赖较大。1.2EM算法的具体步骤(解决方法)00n()(|)nnXEXY()()1,,log()maxlog()nnnfXfX返回Figure:Ifthemodeliswrong,higherlikelihoodmayleadtolowerclassificationaccuracy.Forexample,(a)isclearlynotgeneratedfromtwoGaussian.IfweinsistthateachclassisasingleGaussian,(b)willhavehigherprobabilitythan(c).But(b)hasaround50%accuracy,while(c)ismuchbetter.Figure:Anexampleofunidentifiablemodels.Evenifweknownp(x)(top)isamixtureoftwouniformdistributions,wecannotuniquelyidentifythetwocomponents.Forinstance,themixturesonthesecondandthirdlinegivethesamep(x),buttheyclassifyx=0.5differently.152自训练(Self-training)定义:首先利用已标记的样本训练分类器,然后利用已有未标记训练样本建立的模型标记,使用分类器选出置信度高的样本加入训练集中重新训练,迭代这个过程,得到一个比较理想的分类器。适用:用监督学习分类器时很复杂或者是很难修正优点:简单、容易实现。缺点:误差也同时会自我迭代放大。返回163协同训练(Co-training)背景:最早是1998年由A.Blum和T.Mitchell在Combininglabeledandunlabeleddatawithco-training.In:Proceedingsofthe11thAnnualConferenceonComputationalLearningTheory(COLT’98),Wisconsin,MI,1998,92-100.提出来的,在当时来说可谓是半监督学习的核心主流算法。定义:假设特征能够分成两个集,这两个数据集是独立同分布的。每个子特征集能够训练一个很好的分类器。每个分类器把未标记的样本分出来给另一个分类器,选择出置信度高的新的为标记样本进行标记,重复上面的过程。适用:特征能够很好的分成两类。缺点:大多数的问题并不具有“充分大”的属性集,而且随机划分视图这一策略并非总能奏效,Figure:Co-Training:Conditionalindependentassumptiononfeaturesplit.Withthisassumptionthehighconfidentdatapointsinx1view,representedbycircledlabels,willberandomlyscatteredinx2view.Thisisadvantageousiftheyaretobeusedtoteachtheclassifierinx2view.183.1协同训练的改进S.Goldman和Y.Zhou提出了一种不需要充分冗余视图的协同训练算法。他们用不同的决策树算法,从同一个属性集上训练出两个不同的分类器,每个分类器都可以把示例空间划分为若干个等价类。他们又对该算法进行了扩展,使其能够使用多个不同种类的分类器。tri-training算法:不仅可以简便地处理标记置信度估计问题以及对未见示例的预测问题,还可以利用集成学习(ensemblelearning)来提高泛化能力193.2协同训练的应用实例D.Yarowsky在研究词义消歧时,通过同时使用词的局部上下文以及词在文档其他部分出现时的含义这两部分信息,有效减少了对人工标注数据的需求量E.Riloff和R.Jones在对名词短语进行地理位置分类时,同时考虑了名词短语本身及其出现的上下文。M.Collins和Y.Singer进行名实体识别时,也同时使用了名实体的拼写信息及名实体出现的上下文信息。返回20背景:TSVM是为了改进SVM在文本分类中本已出色的表现而做的更一步改进.使用SVM进行文本分类一个问题是难于建造出那么多的标记文档,要么是可用的训练数据本身就少,或者是用人工方法把无标记的文档分类为有标记的文档所花费的功夫无法承受。这样就引出了TSVM。定义:是标准SVM在半监督学习当中的拓展,是通过加入约束项使得未标记数据落在Margin之外,即使得分类的超平面避开数据密度高的区域。这里的未标记样本的特点就是使得决策面避开样本的密集区。优点:考虑无标签样本对分类器的影响,并且结合SVM算法实现的一种高效的分类算法。适用:能够用SVM的地方,自然想到用转导支持向量机能够获得更好的效果缺点:时间复杂度比较高,需要预先设置正负比例等的不足。4转导支持向量机(TSVM)返回215基于图的方法定义:通过相似度度量将标记和未标记数据放在联系起来的图当中。实际当中,很多基于图的方法就是基于图估计一个函数这个函数需满足下面两个前提假设。对于已标记样本点,尽可能的接近标记,表为在损失函数(lossfunction)的选择。在整个图上函数要比较平缓,表现为正交器regularizer。适用:具有相似特征的点往往被分在同一类当中Lyff22特点:不同的基于图的方法大体上都差不多,只不过是损失函数和正规则器的选择不同而已,其关键是要构建一个好的图。BlumandChawla(2001)posesemi-supervisedlearningasagraphmincut(alsoknownasst-cut)problem.Inthebinarycase,positivelabelsactassourcesandnegativelabelsactassinks.Theobjectiveistofindaminimumsetofedgeswhoseremovalblocksallflowfromthesourcestothesinks。优点:物理原理能够很好的解释。缺点:目前对于图的构建研究还不是很深入。5.1基于图的方法一些随机手写字符数据集的样本两个具有欧几里距离的图像“2”基于欧几里距离KNN图局部相似图像把标签复制给全局不相似的图像AsymmetrizedEuclidean2NNgraphonsome1sand2s.LabelPropagationonthisgraphworkswell.返回25半监督学习的不足通过半监督学习利用未标记示例后,有时不仅不能提高泛化能力,反而会使得性能下降。在模型假设不符合真实情况或者未标记示例的分布与