数据挖掘导论福建医科大学郑伟成第七章聚类分析本章关键词:聚类,簇,模糊聚类、k均值;本章重点:K-均值聚类聚类的定义聚类分析仅仅根据在数据中发现描述对象及其关系的信息,将数据对象分组。组内的用户之间是相似的(相关的),而组间的对象是不同的(不相关的)。组内的相似度越大,组间的差异度越大,聚类就越好聚类分析聚类分析可以看做是一种“无监督”分类同义词:分割、划分聚类的差异原始数据分四类分两类分六类划分聚类层次聚类不同的聚类类型划分聚类层次聚类先分2簇每簇各有两个子簇层次聚类p4p1p3p2p4p1p2p3p4p1p2p3传统层次聚类法非传统层次聚类树状图树状图互斥聚类每个对象只能属于一个簇重叠聚类一个对象允许同时属于多个簇在公司里:员工可以同时是领导模糊聚类对象以一个0-1的权值属于某簇不同的聚类类型互斥聚类重叠聚类0.10.10.70.1明显分离的基于中心的基于邻近的基于密度的不同的簇类型明显分离的簇,每个点到同簇中的任意点的距离比到不同簇中所有点距离更近明显分离簇簇中的任意点到该簇的中心的距离小于到其他任意簇中心的距离(球状簇)基于中心的簇每个点到该簇中至少一个点的距离比到不同簇中任意点更近基于邻近的簇基于密度的簇。簇是被低密度区域分开的高密度区域通常用于有噪声的数据基于密度的簇K均值划分聚类是一种基于中心的簇K均值法划分聚类1、选择K个点作为质心2、将每个点指派到最近的质心形成K个簇3、重新计算每个簇的质心4、重复2-3过程知道质心不再发生变化基本K均值算法将每个点指派到最近的质心形成K个簇为了将点指派,必须度量“最近”的概念对欧式空间向量使用欧几里得距离,曼哈顿距离对文档使用余弦相似性,Jaccard相似度,重新计算每个簇的质心质心的选取:欧几里得空间:均值目标函数:误差平方和最小文档数据:均值目标函数:总凝聚度算法具体实现1、如果需要,计算邻近度矩阵2、合并最近接的两个簇3、更新邻近矩阵,反应心的簇与原来的簇直接的相似性4、重复2-3直到只剩下一个簇基本凝聚层次聚类基本凝聚层次聚类p4p1p3p2p4p1p2p3