K-means算法讲解

拗口
2 ℃
2020-05-05

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

K-means算法主要内容：K-means算法的缺陷及改进数据挖掘简介数据挖掘的任务简介聚类算法简介K-means算法简介什么是数据挖掘？定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。数据挖掘的主要任务●分类（Classification）●预测（Prediction）●聚类（Clustering）●关联规则(Association)●偏差检测（Deviationdetection）分类：指将数据映射到预先定义好的群组或类。1.从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，2.对于测试数据进行分类。预测：预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言。聚类：在没有给定划分类的情况下，根据信息相似度将信息分组。是一种无指导的学习。关联规则：揭示数据之间的相互关系，而这种关系没有在数据中直接表现出来。偏差检测：用于发现与正常情况不同的异常和变化。并分析这种变化是有意的欺诈行为还是正常的变化。如果是异常行为就采取预防措施。聚类算法简介123聚类的目标：将一组数据分成若干组，组内数据是相似的，而组间数据是有较明显差异。与分类区别：分类与聚类最大的区别在于分类的目标事先已知，聚类也被称为无监督机器学习聚类手段：传统聚类算法①划分法②层次方法③基于密度方法④基于网络方法⑤基于模型方法什么是Kmeans算法？Q1：K是什么？A1：k是聚类算法当中类的个数。Summary：Kmeans是用均值算法把数据分成K个类的算法！Q2：means是什么？A2：means是均值算法。Kmeans算法详解（1）步骤一：取得k个初始中心点Kmeans算法详解（2）MinofthreeduetotheEuclidDistance步骤二：把每个点划分进相应的簇Kmeans算法详解（3）MinofthreeduetotheEuclidDistance步骤三：重新计算中心点Kmeans算法详解（4）步骤四：迭代计算中心点Kmeans算法详解（5）步骤五：收敛Kmeans算法流程1.从数据中随机抽取k个点作为初始聚类的中心，由这个中心代表各个聚类2.计算数据中所有的点到这k个点的距离，将点归到离其最近的聚类里3.调整聚类中心，即将聚类的中心移动到聚类的几何中心（即平均值）处，也就是k-means中的mean的含义4.重复第2、3步直到聚类的中心不再移动，此时算法收敛决定性因素Input¢roidsSelectedkMaxIterations&ConvergenceMeassures①数据的采集和抽象②初始的中心选择①最大迭代次数②收敛值①k值的选定①度量距离的手段factors？主要因素初始中心点输入的数据及K值的选择距离度量主要三个方面因素。初始中心点的划分讨论初始中心点意义何在？下面的例子一目了然吧？初始中心点收敛后改进的算法——二分Kmeans算法为了克服k均值算法收敛于局部的问题，提出了二分k均值算法。该算法首先将所有的点作为一个簇，然后将该簇一分为二。之后选择其中一个簇继续划分，选择哪个簇进行划分取决于对其划分是否可以最大程度降低SSE值。伪代码如下：将所有的点看成一个簇Repeat从簇表中取出一个簇（对选定的簇进行多次二分实验）fori=1to实验次数do试用基本K均值（k=2），二分选定的簇endfor从实验中选取总SSE最小的两个簇添加到簇表中Until簇表中包含K个簇