空间数据挖掘进展综述2011年3月3日EndNote心得31SDM概述2空间聚类综述目录空间数据挖掘的发展Page31989年1994年1995年1stInternationalJointConferenceonArtificialIntelligence,IJCAI,DETROIT,MICHIGAN.首次出现KDD概念,标志着数据挖掘技术的诞生6ththeCanadianConferenceonGIS,Ottawa,Canada.李德仁首次提出KnowledgeDiscoveryfromGIS(KDG)1stInternationalConferenceonKnowledgeDiscoveryandDataMining,Montreal,Canada.诞生了数据挖掘学科李德仁将KDG进一步发展为空间数据挖掘和知识发现(SpatialDataMiningandKnowledgeDiscovery)空间数据挖掘的概念•数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。•空间数据挖掘是在空间数据库或空间数据仓库的基础上,综合利用多门学科的理论技术,从海量空间数据中挖掘事先未知潜在有用最终可理解的可信新知识,揭示蕴含在空间数据中的客观世界的本质规律内在联系和发展趋势,实现知识的自动获取,提供技术决策与经营决策的依据。Page4空间数据挖掘与数据挖掘的区别•李德仁(2006),徐胜华(2008)1.挖掘的对象不同,或称数据源不同2.挖掘的粒度不同3.数据维数不同4.挖掘结果的不同Page5空间数据挖掘的分类•MichaelMay(2007)Page6空间数据挖掘地理数据挖掘(GeographicDataMining)其他空间数据挖掘空间数据挖掘的分类•王树良(2009)1.确定集合方法①概率论②证据理论和空间统计学③空间关联规则归纳④空间聚类⑤空间分析Page7空间数据挖掘的分类2.扩展集合方法①模糊集②云模型③粗集3.其他方法①人工智能②可视化③决策树Page8空间数据挖掘顶尖研究小组(1/2)•美国明尼苏达大学UniversityofMinnesotaSpatialDatabaseandSpatialDataMiningResearchGroupPage9Prof.ShashiShekhar空间数据挖掘顶尖研究小组Page10空间数据挖掘顶尖研究小组(2/2)•德国慕尼黑大学UniversityofMunichInstituteforComputerScienceDatabaseandInformationSystemsPage11Dr.Hans-PeterKriegelDr.MartinEsterJörgSanderEndNote心得31SDM概述2空间聚类综述目录空间聚类的定义•JiaweiHan(2001)给出的定义是:•Spatialclusteringistheprocessofgroupingasetofobjectsintoclassesorclusterssothatobjectswithinaclusterhavehighsimilarityincomparisontooneanother,butaredissimilartoobjectsinotherclusters.•空间聚类规则把特征相近的空间实体数据划分到不同的组中,使组之间的差别尽可能大,而组内的差别尽可能小。Page13空间聚类算法的分类•基于划分的聚类–K-means(Lloyd,1957;J.MacQueen,1967)–K-medoids•PAM(Kaufman,1990)•CLARA(Kaufman,1990)•CLARANS(R.T.Ng,1994)Page14空间聚类算法的分类•基于层次的聚类–BIRCH(T.Zhang,1996)–ROCK(S.Guha,2000)–Chameleon(K.George,1999)•基于密度的聚类–DBSCAN(M.Ester,1996)–OPTICS(M.Ankerst,1999)Page15空间聚类算法的分类•基于网格的聚类–STING(W.Wang,1997)–WaveCluster(G.Sheikholeslami,1998)•基于模型的聚类–EM(A.P.Dempster,1977)–COBWEB(DHFisher,1987)–ANNPage16空间聚类的国外研究现状(1/5)•Borah(2004,被引频次:21)针对DBSCAN算法需要扫描整个数据集,因此需要消耗大量资源的缺陷,提出了一种DBSCAN算法的改进算法IDBSCAN(Sampling-basedDBSCAN)。•在DBSCAN算法中,假设Q为某核心对象P的邻域,若Q的邻域被P中的其他对象的邻域覆盖,则对Q的邻域的查询操作便可省略。事实上,在核心对象周围的很多对象都可以被忽略,因此可抽样一些有代表性的对象来描绘出核心对象的邻域,这些对象被称为种子(seed)。Page17空间聚类的国外研究现状(1/5)•为得到种子对象,提出了MBO(MarkedBoundaryObjects)的概念,通过MBO来选择最近的对象作为种子。经过试验证实,IDBSCAN算法通过抽样技术减少了I/O损失和内存的消耗,并且聚类的质量也没有降低。Page18空间聚类的国外研究现状(2/5)•Keh-ShihChuang(2006,被引:148)等利用图像中像素含有的空间自相关性,提出了一种包含空间信息的模糊c-means聚类算法,并应用于医学图像的图像分割中。实验证明该方法可以有效的抑制噪声和虚假点的产生。Page19空间聚类的国外研究现状(3/5)Page20空间聚类的国外研究现状(3/5)•为了支持时间维,时空数据首先要进行过滤,只保留时间上的邻域以及相应的空间属性。•当两个对象的时间属性值在连续时间单元内的时候(比如同一年中的连续几天,或者连续几年中的同一天)满足邻域的阈值,就称这两个对象在时间维上是邻居。Page21空间聚类的国外研究现状(4/5)Page22空间聚类的国外研究现状(5/5)•Stefanakis(2008)在DBSCAN算法的基础上提出了一种能够在移动中识别障碍的算法DBSCAN-MO,可以较好解决对象属性随时间变化的情况•基于二维平面S的点集P,以及移动障碍集MOPage23空间聚类的国外研究现状(5/5)1.动态生成簇。簇的形状依赖于障碍物在时空中的变化2.由于移动障碍的存在,ε领域必须随时间的变化而变化。ε领域不再是标准的球形,领域也不一定是用直线描绘出。Page24空间聚类的国内研究现状(1/2)•汪闽(2004,中科院地理所)等提出了一种基于数学形态学算子的多尺度聚类方法MSCMO。•主要思想:将类别个数选定为在一个最长的尺度变化范围内固定不变的个数,换句话说,也就是此类别个数具有最长的尺度生存期。•方法的基本过程是:基于数学形态学中开闭运算的思想,将数据空间离散变换为图像空间,再构造图像的尺度空间,反复进行直到图像最终全部归并为一类,而最终类别个数则确定为跨越尺度最多的个数。Page25空间聚类的国内研究现状(2/2)•李光强(2008,中南大学)针对传统空间聚类算法没有同时考虑空间位置关系和非空间属性的不足,引入直接可达和相连概念,提出了一种基于双重距离的空间聚类方法(DualDistanceBasedSpatialClustering,DDBSC)。Page26空间聚类的国内研究现状(2/2)Page27EndNote心得31SDM概述2空间聚类综述目录EndNote心得•如何将文献导入EndNote?•如何在EndNote中进行文献管理?•如何自动设置文献格式?•如何与Word进行交互?Page29文献导入EndNotePage30文献导入EndNotePage31文献导入EndNotePage32文献导入EndNotePage33文献导入EndNotePage34文献导入EndNotePage35文献导入EndNotePage36EndNote文献管理Page37EndNote自动设置文献格式Page38EndNote自动设置文献格式Page39EndNote与Word交互Page40EndNote与Word交互Page41EndNote与Word交互Page42slidefilm(物理性的)lanternslides(电子文档性的)其他类的幻灯片