半监督学习前言半监督聚类半监督分类OUTLINE2010/10/282机器学习的目的:h:Y=h(X)(X,Y):训练样本空间Y空集(未知)——无监督学习全部已知——有监督学习只给了一部分——半监督学习三种机器学习-12010/10/283有监督学习从已标注数据中学习无监督学习从未标注数据中学习半监督学习从少量标注数据和大量未标注数据中学习三种机器学习-22010/10/284有监督——分类训练集,带标注数据训练过程:得一模型(分类器)预测:用得到分类器对新样例分类无监督——聚类相似个体聚集为一类最小化类内的距离最大化类间的距离三种机器学习-32010/10/285分类过程2010/10/286聚类过程2010/10/287结合少量标注数据和大量未标注数据半监督分类在少量标注数据上训练开拓大量未标注的数据不断迭代,最终得到一个更为精确的分类器利用未标注数据,目标是分类半监督聚类利用少量标注数据来帮助在未标注数据上的聚类利用标注数据作为约束,目标是聚类半监督学习2010/10/288大规模的标注数据代价昂贵常常需要人工标注耗时未标注数据很容易获得领域标注数据一般都是针对某个特定领域,换个领域就不适用了为什么要利用未标注数据2010/10/289输入未标注对象集,每个对象由一个特征集来描述输出K个聚类的划分目标最小化类内相似度,最大化类间相似度高内聚,低耦合半监督分类2010/10/2810半监督K-Means标签传播LP2010/10/2811半监督分类SeededK-Means用已标注数据初始化各个聚类的中心,以后的过程中,已标注数据的标签信息可以改变ConstrainedK-Means已标注数据初始化各个聚类的中心,以后的过程中,已标注数据的标签信息不得改变半监督K-MEANS2010/10/28121随机选取k个样例,作为聚类的中心2对剩下的n-k个样例计算与k个中心的相似度,将其归于相似度最大的中心的那个聚类3重新计算各个聚类的中心4重复2、3步骤直至收敛一般的K-MEANS2010/10/2813SEEDEDK-MEANS2010/10/2814SEEDEDK-MEANS例子-12010/10/2815SEEDEDK-MEANS例子-22010/10/2816SEEDEDK-MEANS例子-32010/10/2817SEEDEDK-MEANS例子-42010/10/2818SEEDEDK-MEANS例子-52010/10/2819CONSTRAINEDK-MEANS2010/10/2820CONSTRAINEDK-MEANS例子-12010/10/2821CONSTRAINEDK-MEANS例子-22010/10/2822CONSTRAINEDK-MEANS例子-32010/10/2823CONSTRAINEDK-MEANS例子-42010/10/2824CONSTRAINEDK-MEANS例子-52010/10/2825CONSTRAINEDK-MEANS例子-62010/10/2826CONSTRAINEDK-MEANS例子-72010/10/2827COPK-MEANS2010/10/2828Seeded与ConstrainedK-Means:部分标注数据COPK-Means:约束(Must-link和Connot-link)Constrained和COPK-Means要求所有的约束都要满足种子中如果包含了噪音,这种方法将不那么有效SeededK-Means只是在第一步中使用种子得到各个聚类的中心对种子中的噪音不敏感实验结果表明半监督的K-Means优于传统的K-Means比较2010/10/2829标签传播LabelPropagation假设:相似度越高的样例越有可能属于同一类建立一个图结点:所有的样例(标注+未标注)通过图中的边传递标签信息不同的边有不同的权值,权值越大的边越容易传递标签信息标签传播2010/10/2830图中每个结点代表一个样例计算这个样例之间的相似度wij图中两个样例有标签,其他都没有怎样预测未标注结点的标签,借助于图?示例-12010/10/2831示例-22010/10/2832示例-32010/10/2833标签传播-12010/10/2834标签传播-22010/10/2835标签传播-32010/10/2836标签传播-42010/10/2837利用少量标注数据来标注大量未标注数据相似的样例有相同的的类标签半监督分类2010/10/2838问题描述-12010/10/2839问题描述-22010/10/2840问题描述-32010/10/2841BootstrappingCo-training半监督分类的几种算法2010/10/2842最早的,也是最简单的也称作:self-teaching或self-trainingBOOTSTRAPPING2010/10/2843描述2010/10/2844SELF-TRAINING过程2010/10/2845在一些情况下所得到的数据特征是冗余的,我们可以在这些相对独立的特征集上训练得到两个或者更多的分类器所得到的两个分类器接受对每个样例的分类这样,我们可以利用未标注数据来约束两个分类器的训练过程CO-TRAINING2010/10/2846示例-12010/10/2847示例-22010/10/2848示例-32010/10/2849CO-TRAINING过程-12010/10/2850CO-TRAINING过程-22010/10/2851条件独立2010/10/2852CO-TRAINING过程2010/10/2853示例-12010/10/2854示例-22010/10/2855示例-32010/10/2856示例-42010/10/2857改进2010/10/2858怎样去训练每个分类器2010/10/2859INTUITIONBEHINDCO-TRAINING2010/10/2860半监督EMTransductiveSVM更多的半监督分类2010/10/28612010/10/2862Anyquestions?