模糊聚类技术在甘蔗种植户信息分类中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

模糊聚类技术在甘蔗种植户信息分类中的应用姓名:李嘉学号:3106361指导老师:武刚1目录一、选题背景与意义二、基本概念三、模糊聚类分析的原理与方法四、应用实例五、小结2一、选题背景与意义3在日常生活中,我们经常要对人和事物进行分类,简单的分类很容易实现,但是稍微复杂一点的分类就会产生混乱。在信息爆炸、数据堆积的当代,除了从大量信息中找到自己需要的信息外,对信息的分类也是一件重要的事情。随着计算机技术的发展,聚类分析越来越多地用于大量的未知类别数据的分类。由于现实的分类过程往往伴随着模糊性,所以用模糊数学的方法来进行聚类分析会显得更自然、更符合客观实际。一、选题背景与意义4在信息推送领域中,聚类分析更是有着重要的作用。本文结合了甘蔗种植户信息分类的实例,说明在信息推送实现过程中,需要对产品信息和用户信息分别进行聚类分析,将相似的用户分为一类,以便在推送中将产品信息和用户信息更好的分类,从而提高推送的准确率。二、基本概念5根据一定的规则,按照事物某些属性,合理划分未分类事物的集合,得到确定事物分类的过程。通过聚类得到事物类,同一类中的事物之间具有较高的相似度或相关度。聚类二、基本概念6模糊聚类分析数理统计中的一种多元分析方法,用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。事物之间的界限,有些是确切的,有些则是模糊的。例如人群中的面貌相像程度之间的界限是模糊的,天气阴、晴之间的界限也是模糊的。当聚类涉及事物之间的模糊界限时,需运用模糊聚类分析方法。模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。三、模糊聚类分析的原理与方法7在进行模糊聚类分析中,需要用到两种十分重要的矩阵,这决定了聚类分析的结果。分别是模糊相似矩阵和模糊等价矩阵。模糊相似矩阵:设给定U上的一个模糊矩阵R=(rij)n×n,如果它满足:①自反性:rij=1;②对称性;rij=rji,(i,j=1,2…,n),则称R=(rij)n×n是一个模糊相似矩阵。模糊等价矩阵:设给定U上的一个模糊关R=(rij)n×n,如果它满足:①自反性:rij=1;②对称性:rij=rji,(i,j=1,2…,n);③传递性:R·RR,则称R=(rij)n×n是一个模糊等价矩阵。三、模糊聚类分析的原理与方法8(1)选定模糊聚类分析的统计指标,就是选定数据集。(2)将统计指标的数据标准化,便于比较和分析。在标准化时主要有两种方法:平移标准差变化、平移极差变换。其中平移极差变换可以把标准化的数据压缩到[0,1]闭区间。平移极差变换:其中k=1,2,…,m。模糊聚类分析方法}{min}{max}{min'1'1'1'''ikniikniikniikikxxxxx三、模糊聚类分析的原理与方法9(3)建立模糊相似矩阵R,主要确定其相似系数rij,即:xi与xj的相似程度,从而确定模糊相似矩阵R。求相似系数rij的方法很多,本文采用欧氏距离法。nnnnnnrrrrrrrrrR212222111211欧氏距离法nkkjkiijxxd12)(三、模糊聚类分析的原理与方法10(4)若模糊相似矩阵R为模糊等价关系,则可进行模糊聚类分析。否则要对R进行改造,使其成为模糊等价关系。(5)建立传递闭包(确定模糊等价矩阵)。由于模糊相似矩阵不满足传递性,因此采用平方法计算传递闭包,具体方法是将R自乘得R·R=R2,再自乘得R2·R2=R4,然后再得R8,R16,……如此继续下去至某一步出现为止,则便是一个模糊等价矩阵t(R)。122kkRRkR2三、模糊聚类分析的原理与方法11(6)聚类分析。给定一个聚类水平λ,λ∈[0,1],计算模糊等价矩阵的截矩阵。nmijrRnmijrR给定任意λ∈[0,1],若rij≥λ,则样本xi和xj属于同一类,随着λ从1降到0,所确定的分类随之由细到粗变化,这样就可以得到较为合理的分类关系。四、应用实例12利用模糊聚类技术实现甘蔗种植户分类的整个过程,以便制糖企业发现有价值的种植户、有潜力的种植户等,并为之提供有效的奖励或扶持,从而影响相关种植户的种植行为,并且最终达到扩大甘蔗种植的目的。采用5个属性作为分类指标,依次为各户适种总面积(R1)、各户拥有优质土地面积(R2)、各户平均产量高于当年总平均产量的发生率(R3)、各户全面积种甘蔗发生率(R4)、各户平均年种甘蔗面积占比(R5)。样本对象数为12人,分别为X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11、X12,数据集如表1。13表1甘蔗种植户数据四、应用实例样本R1R2R3R4R5X120100.330.500.80X231150.500.330.80X316160.830.000.90X4800.000.000.30X5331.000.500.70X618180.670.330.60X7840.330.170.40X811110.830.670.70X9730.670.330.60X10441.000.500.80X11500.170.170.30X1213130.670.670.90四、应用实例(1)计算每个衡量指标下,所有数据的最大值和最小值。使用平移极差变换公式对原始数据进行标准化。样本R1R2R3R4R5X10.610.560.330.750.83X21.000.830.500.490.83X30.460.890.830.001.00X40.180.000.000.000.00X50.000.171.000.750.67X60.541.000.670.490.50X70.180.220.330.250.17X80.290.610.831.000.67X90.140.170.670.490.50X100.040.221.000.750.83X110.070.000.170.250.00X120.360.720.671.001.0014四、应用实例(2)利用欧氏距离,在B18单元格输入:=SQRT((B$3-B3)^2+(C$3-C3)^2+(D$3-D3)^2+(E$3-E3)^2+(F$3-F3)^2),求得d11;在C18单元格输入:=SQRT((B$4-B3)^2+(C$4-C3)^2+(D$4-D3)^2+(E$4-E3)^2+(F$4-F3)^2),求得d12。同理定义D18、E18、F18、G18、H18、I18、J18、K18、L18、M18,在B18:B29区域应用数据填充,其他各列同样操作,产生距离矩阵D。15距离矩阵D四、应用实例16四、应用实例(3)利用公式:求得模糊矩阵R。其中c取矩阵D中的最大值。nkjkikijxxcr12)(117四、应用实例(4)由于模糊相似矩阵R满足自反性、对称性,但不满足传递性,因此R为模糊相似关系,建立传递闭包使R满足传递性。对R去平方,经过4次迭代,得到R8=R16,这时R8是一个模糊等价关系,可以进行聚类分析。122kkRR重复执行,直到出现,当k=3时,R8=R16,可以得到一个模糊等价矩阵t(R)=R8。18四、应用实例模糊等价矩阵t(R)19四、应用实例(5)选取0.8≤λ1,当模糊等价矩阵中rij≥0.8时,取1,否则取0,利用IF()函数,求得模糊等价矩阵的截矩阵,经整理后可以得到截矩阵R0.8。{4,7,11},{5,10},{1},{2},{3},{6},{8},{9},{12}9类20四、应用实例(6)改变λ值,使0.7≤λ0.8,可以得到截距R0.7。{4,7,11},{5,9,10},{8,12},{1},{2},{3},{6}7类21四、应用实例(7)改变λ值,使0.68≤λ0.7,可以得到截距阵R0.68。{4,5,7,9,10,11},{1,8,12},{2},{3},{6}5类22五、小结在进行模糊聚类分析时,主要应注意三个问题:建立模糊相似矩阵、建立模糊等价矩阵、选取适当的阈值进行聚类分析。每一种方法从原理上讲并不难,但是在实际应用中,只有适当的选取建立模糊相似矩阵的方法、确定恰当的阈值,才能得到符合实际需要的聚类分析结果,才能真正的解决问题。23

1 / 23
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功