半监督学习

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

本周报告听师兄的论文答辩时,常提到半监督学习,所以本周与主要是搜集、学习了一些半监督学习方面的知识。监督学习中的每一个样本都具有标记信息,即确定的类别;无监督学习中每个样本都没有类别信息;所以,顾名思义,半监督学习是未标记样本和标记样本的混合,让学习器不依赖于外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类标记相联系的假设,最常见的有“聚类假设”和“流行假设”,前者假设数据存在簇结构,同一个簇的样本属于同一个类别;后者假设数据分布在一个流行结构上,邻近的样本具有相似的输出值。总之,无论是聚类假设还是流行假设,其本质都是“相似的样本拥有相似的输出”这一假设。生成式方法此类方法假设所有数据都是由同一个潜在的模型生成的,所以我们可以通过潜在的模型的参数将未标记样本数据与学习联系起来,未标记数据的标记可看做模型的缺失参数,次方法的区别主要是生成模型的假设,不同的模型假设将产生不同的方法,此方法的代表是高斯混合模型,用EM算法求解。此类方法有一个关键:模型计算必须准确,即假设的生成模型必须与真实数据分布吻合,否则利用未标记数据反倒会降低泛化性能。假设所有数据服从于某个由L个高斯分布混合而成的分布,即其中为混合系数,为参数。这样,标记就可视为一个由选定的混合成分mi和特征向量xi以概率P(ci|xi,mi)决定的随机变量。于是,根据最大后验概率假设,最优分类由式给出:其中:这样,学习目标就变成了利用训练例来估计P(ci=k|mj=j,xi)和P(mi=j|x)。这两项中的第一项与类别标记有关,而第二项并不依赖于示例的标记,因此,如果有大量的未标记示例可用,则意味着能够用于估计第二项的示例数显著增多,这会使得第二项的估计变得更加准确,从而导致式2更加准确,也就是说,分类器的泛化能力得以提高。半监督SVM半监督支持向量机简称S3VM,在不考虑未标记样本时,支持向量机试图找到最大间隔划分超平面,,而考虑未标记样本后,S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面。形式化地说,给定Dl={(x1,y1),(x2,y2),⋯,(xl,yl)},Du={(xl+1,yl+1),(xl+2,yl+2),⋯,(xl+u,yl+u)},其中yi={−1,+1},l≪u,l+u=m,则学习目标是为Du中的样本给出标记,使得其中,(𝒘,𝑏)确定一个划分超平面;ε为松弛变量;𝐶𝑙、𝐶𝑢是由用户指定的用于平衡模型复杂度、有标记样本和未标记样本重要程度的折中参数。S3VM找出两个标记指派为异类且很有可能发生错误的未标记样本,交换它们的标记,代入公式求解出更新后的划分超平面和松弛变量,然后再找出两个标记指派为异类且很有可能发生错误的未标记样本,……标记指派完成后,逐渐增大𝐶𝑢以提高未标记样本对优化目标的影响,进行下一轮标记指派调整,直至𝐶𝑙=𝐶𝑢为止。

1 / 2
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功