数据库网统原理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘导论福建医科大学郑伟成第七章聚类分析本章关键词:聚类,簇,模糊聚类、k均值;本章重点:K-均值聚类聚类的定义聚类分析仅仅根据在数据中发现描述对象及其关系的信息,将数据对象分组。组内的用户之间是相似的(相关的),而组间的对象是不同的(不相关的)。组内的相似度越大,组间的差异度越大,聚类就越好聚类分析聚类分析可以看做是一种“无监督”分类同义词:分割、划分聚类的差异原始数据分四类分两类分六类划分聚类层次聚类不同的聚类类型划分聚类层次聚类先分2簇每簇各有两个子簇层次聚类p4p1p3p2p4p1p2p3p4p1p2p3传统层次聚类法非传统层次聚类树状图树状图互斥聚类每个对象只能属于一个簇重叠聚类一个对象允许同时属于多个簇在公司里:员工可以同时是领导模糊聚类对象以一个0-1的权值属于某簇不同的聚类类型互斥聚类重叠聚类0.10.10.70.1明显分离的基于中心的基于邻近的基于密度的不同的簇类型明显分离的簇,每个点到同簇中的任意点的距离比到不同簇中所有点距离更近明显分离簇簇中的任意点到该簇的中心的距离小于到其他任意簇中心的距离(球状簇)基于中心的簇每个点到该簇中至少一个点的距离比到不同簇中任意点更近基于邻近的簇基于密度的簇。簇是被低密度区域分开的高密度区域通常用于有噪声的数据基于密度的簇K均值划分聚类是一种基于中心的簇K均值法划分聚类1、选择K个点作为质心2、将每个点指派到最近的质心形成K个簇3、重新计算每个簇的质心4、重复2-3过程知道质心不再发生变化基本K均值算法将每个点指派到最近的质心形成K个簇为了将点指派,必须度量“最近”的概念对欧式空间向量使用欧几里得距离,曼哈顿距离对文档使用余弦相似性,Jaccard相似度,重新计算每个簇的质心质心的选取:欧几里得空间:均值目标函数:误差平方和最小文档数据:均值目标函数:总凝聚度算法具体实现1、如果需要,计算邻近度矩阵2、合并最近接的两个簇3、更新邻近矩阵,反应心的簇与原来的簇直接的相似性4、重复2-3直到只剩下一个簇基本凝聚层次聚类基本凝聚层次聚类p4p1p3p2p4p1p2p3

1 / 18
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功