利用Matlab软件实现聚类分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

§8.利用Matlab和SPSS软件实现聚类分析1.用Matlab编程实现运用Matlab中的一些基本矩阵计算方法,通过自己编程实现聚类算法,在此只讨论根据最短距离规则聚类的方法。调用函数:min1.m——求矩阵最小值,返回最小值所在行和列以及值的大小min2.m——比较两数大小,返回较小值std1.m——用极差标准化法标准化矩阵ds1.m——用绝对值距离法求距离矩阵cluster.m——应用最短距离聚类法进行聚类分析print1.m——调用各子函数,显示聚类结果聚类分析算法假设距离矩阵为vector,a阶,矩阵中最大值为max,令矩阵上三角元素等于max聚类次数=a-1,以下步骤作a-1次循环:求改变后矩阵的阶数,计作c求矩阵最小值,返回最小值所在行e和列f以及值的大小gforl=1:c,为vector(c+1,l)赋值,产生新类令第c+1列元素,第e行和第f行所有元素为,第e列和第f列所有元素为max源程序如下:%std1.m,用极差标准化法标准化矩阵functionstd=std1(vector)max=max(vector);%对列求最大值min=min(vector);[a,b]=size(vector);%矩阵大小,a为行数,b为列数fori=1:aforj=1:bstd(i,j)=(vector(i,j)-min(j))/(max(j)-min(j));endend%ds1.m,用绝对值法求距离functiond=ds1(vector);[a,b]=size(vector);d=zeros(a);fori=1:aforj=1:afork=1:bd(i,j)=d(i,j)+abs(vector(i,k)-vector(j,k));endendendfprintf('绝对值距离矩阵如下:\n');disp(d)%min1.m,求矩阵中最小值,并返回行列数及其值function[v1,v2,v3]=min1(vector);%v1为行数,v2为列数,v3为其值[v,v2]=min(min(vector'));[v,v1]=min(min(vector));v3=min(min(vector));%min2.m,比较两数大小,返回较小的值functionv1=min(v2,v3);ifv2v3v1=v3;elsev1=v2;end%cluster.m,最短距离聚类法functionresult=cluster(vector);[a,b]=size(vector);max=max(max(vector));fori=1:aforj=i:bvector(i,j)=max;endend;fork=1:(b-1)[c,d]=size(vector);fprintf('第%g次聚类:\n',k);[e,f,g]=min1(vector);fprintf('最小值=%g,将第%g区和第%g区并为一类,记作G%g\n\n',g,e,f,c+1);forl=1:cifl=min2(e,f)vector(c+1,l)=min2(vector(e,l),vector(f,l));elsevector(c+1,l)=min2(vector(l,e),vector(l,f));endend;vector(1:c+1,c+1)=max;vector(1:c+1,e)=max;vector(1:c+1,f)=max;vector(e,1:c+1)=max;vector(f,1:c+1)=max;end%print1,调用各子函数functionprint=print1(filename,a,b);%a为地区个数,b为指标数fid=fopen(filename,'r')vector=fscanf(fid,'%g',[ab]);fprintf('标准化结果如下:\n')v1=std1(vector)v2=ds1(v1);cluster(v2);%输出结果print1('fname',9,7)2.直接调用Matlab函数实现2.1调用函数层次聚类法(HierarchicalClustering)的计算步骤:①计算n个样本两两间的距离{dij},记D②构造n个类,每个类只包含一个样本;③合并距离最近的两类为一新类;④计算新类与当前各类的距离;若类的个数等于1,转到5);否则回3);⑤画聚类图;⑥决定类的个数和类;Matlab软件对系统聚类法的实现(调用函数说明):cluster从连接输出(linkage)中创建聚类clusterdata从数据集合(x)中创建聚类dendrogram画系统树状图linkage连接数据集中的目标为二元群的层次树pdist计算数据集合中两两元素间的距离(向量)squareform将距离的输出向量形式定格为矩阵形式zscore对数据矩阵X进行标准化处理各种命令解释⑴T=clusterdata(X,cutoff)其中X为数据矩阵,cutoff是创建聚类的临界值。即表示欲分成几类。以上语句等价与以下几句命令:Y=pdist(X,’euclid’)Z=linkage(Y,’single’)T=cluster(Z,cutoff)以上三组命令调用灵活,可以自由选择组合方法!⑵T=cluster(Z,cutoff)从逐级聚类树中构造聚类,其中Z是由语句likage产生的(n-1)×3阶矩阵,cutoff是创建聚类的临界值。⑶Z=linkage(Y)Z=linkage(Y,'method')创建逐级聚类树,其中Y是由语句pdist产生的n(n-1)/2阶向量,’method’表示用何方法,默认值是欧氏距离(single)。有’complete’——最长距离法;‘average’——类平均距离;‘centroid’——重心法;‘ward‘——递增平方和等。⑷Y=pdist(X)Y=pdist(X,'metric')计算数据集X中两两元素间的距离,‘metric’表示使用特定的方法,有欧氏距离‘euclid’、标准欧氏距离‘SEuclid’、马氏距离‘mahal’、明可夫斯基距离‘Minkowski‘等。⑸H=dendrogram(Z)H=dendrogram(Z,p)由likage产生的数据矩阵z画聚类树状图。P是结点数,默认值是30。2.2举例说明设某地区有八个观测点的数据,样本距离矩阵如表1所示,根据最短距离法聚类分析。%最短距离法系统聚类分析X=[7.9039.778.4912.9419.2711.052.0413.29;7.6850.3711.3513.319.2514.592.7514.87;9.4227.938.208.1416.179.421.559.76;9.1627.989.019.3215.999.101.8211.35;10.0628.6410.5210.0516.188.391.9610.81];BX=zscore(X);%标准化数据矩阵Y=pdist(X)%用欧氏距离计算两两之间的距离D=squareform(Y)%欧氏距离矩阵Z=linkage(Y)%最短距离法T=cluster(Z,3)等价于{T=clusterdata(X,3)}find(T==3)%第3类集合中的元素[H,T]=dendrogram(Z)%画聚类图聚类谱系图如图1所示:14171322128232019121155231627418242861073026925112900.10.20.30.40.50.60.7图1聚类谱系图

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功