数据挖掘物联网数据处理主要内容数据挖掘概述数据预处理数据挖掘算法-分类与预测数据挖掘算法-聚类数据挖掘算法-关联分析序列模式挖掘物联网数据处理一、数据挖掘概述物联网数据处理数据挖掘概念数据挖掘--从大量的数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。数据挖掘的主要目的是提高决策能力,检测异常模式,在过去的经验基础上预言未来趋势等。例如,通过对大量气象资料和销售资料的处理及分析,德国的啤酒商发现,夏天气温每升高1℃,就会增加230万瓶的啤酒销量;而日本人则发现,夏季30℃以上的天气每增加一天,空调的销量便增加4万台。物联网数据处理5沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。数据挖掘概念物联网数据处理6数据挖掘(DataMining):又称为数据库中的知识发现,是基于AI、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘概念物联网数据处理数据挖掘的任务分类预测(Prediction)利用一些变量来预测未知的或其他变量将来的值.典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。近年来,发展起来的神经网络方法,如BP模型,它实现了非线性样本的学习,能进行非线性函数的预测物联网数据处理典型的分类型任务如下:1、给出一个客户的购买或消费特征,判断其是否会流失;2、给出一个信用卡申请者的资料,判断其编造资料骗取信用卡的可能性3、给出一个病人的症状,判断其可能患的疾病4、给出大额资金交易的细节,判断是否有洗钱的嫌疑;5、给出很多文章,判断文章的类别(如科技、体育、经济等)数据挖掘的任务物联网数据处理物联网数据处理描述型任务:找到人们可以解释的,描述数据的模式.描述性任务主要包括聚类、摘要、依赖分析等几种任务。聚类任务把没有预定义类别的数据划分成几个合理的类别,摘要任务形成数据高度浓缩的子集及描述,依赖分析任务发现数据项之间的关系。典型的描述型任务如下:1、给出一组客户的行为特征,将客户分成多个行为相似的群体;2、给出一组购买数据,分析购买某些物品和购买其他物品之间的联系3、给出一篇文档,自动形成该文档的摘要数据挖掘的任务物联网数据处理数据挖掘的任务分类[预测性的]聚类[描述性的]关联规则发现[描述性的]序列模式发现[描述性的]预测回归[预测性的]异常发现[预测型的]物联网数据处理分类给定一组纪录(训练集-trainingset)每一条记录都包含一组属性,其中的一个属性就是类.为类属性找到一个模型,这个模型就是其他属性值的函数.目的:先前未见过的纪录应该被尽可能精确的分配一个类中.在分类预测任务中,数据集根据其在数据挖掘过程中扮演角色的不同,可划分为训练集、测试集、验证集。物联网数据处理训练集:是在数据挖掘过程中用来训练学习算法,建立模型的数据集.测试集:就是数据挖掘算法在生成模型后,用以测试所得到的模型的有效性的数据集,常被用来决定模型的精确性.验证集:是在数据挖掘过程结束后,模型应用的实际数据集,验证集用于在实践中检验模型.分类物联网数据处理例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类:字段为(年龄(取值:30,30~40,40);收入(高,中,低);学生否(Y,N);信用(一般,很好);购买计算机否(Y,N))记录为14个,具体数据如下:X1=(30,高,N,一般,N);X2=(30,高,N,很好,N);X3=(30~40,高,N,一般,Y);X4=(40,中,N,一般,Y);X5=(40,低,Y,一般,Y);X6=(40,低,Y,很好,N);X7=(30~40,低,Y,很好,Y);X8=(30,中,N,一般,N);X9=(30,低,Y,一般,Y);X10=(40,中,Y,一般,Y);X11=(30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y);X13=(30~40,高,Y,一般,Y);X14=(40,中,N,很好,N);利用贝叶斯法则预测,符合下列条件的人员购买计算机的可能性X=(年龄30,收入=中,学生否=Y,信用=一般)分类物联网数据处理聚类聚类是按照某个特定标准(通常是某种)把一个数据集分割成不同的类,使得类内相似性尽可能地大,同时类间的区别性也尽可能地大。直观地看,最终形成的每个聚类,在空间上应该是一个相对稠密的区域。聚类是对记录分组,把相似的记录在一个聚类里。聚类和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。例子:a.一些特定症状的聚类可能预示了一个特定的疾病b.租VCD类型不相似的客户聚类,可能暗示成员属于不同的亚文化群物联网数据处理IllustratingClusteringEuclideanDistanceBasedClusteringin3-Dspace.IntraclusterdistancesareminimizedInterclusterdistancesaremaximized物联网数据处理物联网数据处理聚类方法主要包括划分聚类、层次聚类、基于密度的聚类和kohonen聚类等;进行划分聚类,一般用距离来度量对象之间的相似性,典型的是欧氏距离;距离越大,则相似性越小,反之亦然;聚集通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。聚类物联网数据处理预测回归通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预测其实没有必要分为一个单独的类。预测其目的是对未来未知变量的估计,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预测准确性是多少。例如(1)证券市场;(2)由顾客过去之刷卡消费量预测其未来之刷卡消费量。使用的技巧包括回归分析、时间数列分析及类神经网络方法。物联网数据处理关联规则从所有对象决定那些相关对象应该放在一起。例如超市中相关之盥洗用品(牙刷、牙膏、牙线),放在同一间货架上。在客户营销系统上,此种功能系用来确认交叉销售(cross-selling)的机会以设计出吸引人的产品群组。物联网数据处理物联网数据处理序列模式发现定义:给定一个项集合,每一个项都和事件的时间有关系.目的:找出规则来预测在不同时间点上很强的序列依赖性.Rulesareformedbyfirstdisoveringpatterns.Eventoccurrencesinthepatternsaregovernedbytimingconstraints.(AB)(C)(DE)=ms=xgng=ws(AB)(C)(DE)物联网数据处理异常检测从正常的行为中检测有意义的异常应用:信用卡欺诈检测网络侵扰检测TypicalnetworktrafficatUniversitylevelmayreachover100millionconnectionsperday物联网数据处理物联网数据处理数据挖掘的发展1989IJCAI会议:数据库中的知识发现讨论专题KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD讨论专题AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD国际会议(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002会议,以及SIGKDDExplorations数据挖掘方面更多的国际会议PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.物联网数据处理进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息物联网数据处理数据挖掘系统代特征数据挖掘算法集成分布计算模型数据模型第一代数据挖掘作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质/局部区域的计算机群集有些系统支持对象、文本、和连续的媒体数据第三代和预言模型系统集成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型物联网数据处理数据挖掘系统第一代数据挖掘系统支持一个或少数几个数据挖掘算法,这些算法设计用来挖掘向量数据(vector-valueddata),这些数据模型在挖掘时候,一般一次性调进内存进行处理。许多这样的系统已经商业化。第二代数据挖掘系统目前的研究,是改善第一代数据挖掘系统,开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言(DMQL)增加系统的灵活性。物联网数据处理数据挖掘系统第三代数据挖掘系统第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据,并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别(firstclass)的支持。第四代数据挖掘系统第四代数据挖掘系统能够挖掘嵌入式系统、移动