基于云计算的海量数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于云计算的海量数据挖掘基于云计算的海量数据挖掘清何清中科学院计算技术究所中国科学院计算技术研究所~heqing:heq@ics.ict.ac.cn1中国科学院计算技术研究所2010-5-24内容提要内容提要算起•云计算的兴起数据挖掘发展历程•数据挖掘发展历程•云数据挖掘实践•云数据挖掘实践•云数据挖掘未来走向云数据挖掘未来走向2中国科学院计算技术研究所2010-5-24云计算的定义云计算的定义WikidiCldiiIbd•Wikipedia:CloudcomputingisInternet‐basedcomputing,wherebysharedresources,softwareandinformationareprovidedtocomputersandandinformationareprovidedtocomputersandotherdeviceson‐demand,liketheelectricitygrid.It describes a new supplement, consumption and delivery model for IT services based on the Internet, and it typically involves the provision of dynamically scalableandoftenvirtualizedresourcesasaservicescalable and often virtualized resources as a service over the Internet 3中国科学院计算技术研究所2010-5-24云计算的定义云计算的定义云计算是种基于互联网的大众参与的计算模式•云计算是一种基于互联网的、大众参与的计算模式,其计算资源(计算能力、存储能力、交互能力)是动态、可伸缩、且被虚拟化的,以服务的方式提供动态、可伸缩、且被虚拟化的,以服务的方式提供•云计算是并行计算(ParallelComputing)、分布式计算(DiibdCi)和网格计算(GidCi)(DistributedComputing)和网格计算(GridComputing)的发展,或者说是这些计算机科学概念的商业实现•云计算是虚拟化(Virtualization)、效用计算(UtilityComputing)、IaaS(基础设施即服务)、PaaS(平台即服务)SS(软件即服务)等概念混合演进并跃升的结务)、SaaS(软件即服务)等概念混合演进并跃升的结果4中国科学院计算技术研究所2010-5-24云计算的兴起云计算的兴起云计算风起云涌云计算风起云涌5中国科学院计算技术研究所2010-5-24云计算的大事件候选云计算的大事件候选6中国科学院计算技术研究所2010-5-242008年底中科院计算所开2008年底中科院计算所开发出基于云计算的并行数据挖掘平台PDMiner7中国科学院计算技术研究所2010-5-24机遇机遇大大降低中小企业购昂贵设备的成本•大大降低了中小企业购买昂贵IT设备的成本,且可以享受大企业级的技术•为服务器、PC、EU的销售带了机遇提供种新的并行计算技术服务云服务•提供一种新的并行计算技术服务—云服务–无需购买硬件–无需开发软件在网络上就可以得到并行计算服务并能在线实–在网络上就可以得到并行计算服务并能在线实时监控2010-5-24中国科学院计算技术研究所8云计算的应用云计算的应用马逊网络服务•亚马逊网络服务(Amazon WebServices, AWS)•Google应用软件引擎(GoogleAppEngine,GAE),(gppg)Google地球、地图、Gmail、Docs等•Salesforce的网络应用软件平台Force.com,这一平Salesforce的网络应用软件平台Force.com,这平台可作为其他企业自身软件服务的基础•IBM在2007年11月推出了“改变游戏规则”的“•IBM在2007年11月推出了改变游戏规则的蓝云”计算平台,为客户带来即买即用的云计算平台平台•微软在2008年10月推出了Windows Azure操作系统9中国科学院计算技术研究所2010-5-24内容提要内容提要算起•云计算的兴起数据挖掘发展历程•数据挖掘发展历程•云数据挖掘实践•云数据挖掘实践•云数据挖掘未来走向云数据挖掘未来走向10中国科学院计算技术研究所2010-5-24数据挖掘软件的发展数据挖掘软件的发展代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据的应用算法第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预测模型系统集成多个算法数据管理和预测模型系统Intranet/extranet网络计算支持半结构化数据和web数据据第四代分布式数据挖掘多个算法分布在多个节点算法、调度系统网格计算普遍存在的数据模型第五代基于云计算的并行数据挖掘与服务同一个算法分布在多个节点;多个算法之间也可以并行计算资源按需分配云计算BigTableDFS11Map/reduceonmulticoreMap/reduce on multi‐core•Map‐Reduce for Machine Learning on Multicore(NIPS 2006)–LocallyWeightedLinearRegression(LWLR),NaiveBayes(NB)–NaiveBayes(NB),–GaussianDiscriminativeAnalysis(GDA),–k-means,LogisticRegression(LR),,gg(),–NeuralNetwork(NN),–PrincipalComponentsAnalysis(PCA),–IndependentComponentAnalysis(ICA),–ExpectationMaximization(EM),SupportVectorMachine(SVM)–SupportVectorMachine(SVM)目前基于hadoop的数据挖掘工作目前基于hadoop的数据挖掘工作////•Mahout( )–Classification: Logistic Regression, Bayesian, SVM, Neural Network, RandomForestsRandom Forests, ……–Clustering: k‐Means, Fuzzy K‐Means, Expectation Maximization (EM), Hierarchical Clustering, ……–Pattern Mining: Frequent Itemset mining, ……–Dimension reduction: SVD, PCA, ICA, GDA海量数据挖掘需求海量数据挖掘海量数据挖掘需求•海量数据挖掘–从数据中获取有效的、可理解的知识–大规模数据挖掘是数据挖掘追求的目标互联网网页数量随时间成倍增长数千亿乃至–互联网网页数量随时间成倍增长,数千亿乃至上万亿的网页索引数据挖掘任务远比搜索任务复杂–数据挖掘任务远比搜索任务复杂14中国科学院计算技术研究所2010-5-24为什么基于云计算平台?低成本分布式并行计算环境为什么基于云计算平台?•低成本分布式并行计算环境–适应规模不同的组织,为中小企业数据处理带来了新型低成本计算环境–大企业“云计算”平台对于某些特定数据计算将不再完全依赖大型高性能机•开发方便:屏蔽掉了底层开发方便屏蔽掉了底层–数据的划分无需用户考虑–数据分配加载到节点无需考虑–数据分配加载到节点无需考虑–计算任务调度无需考虑15中国科学院计算技术研究所2010-5-24为什么基于云计算平台?为什么基于云计算平台?数据处规模大幅度提高•数据处理规模大幅度提高–由于并行化在利用原有设备的条件下就可以有大幅度提高•扩展性好扩展性好–可以很方便地增加节点•容错计算健壮性强•容错计算健壮性强–可自动处理失败节点,具有高容错能力–个别节点down掉,仍能完成计算任务16中国科学院计算技术研究所2010-5-24问题与挑战问题与挑战需求•需求–个性化个性化–多样化数据•数据–海量数据:数据量TB级乃至PB级–高维数据:采集数据项很多–噪声数据:网络来源、侦测不准、采集失当噪声数据:网络来源、侦测不准、采集失当–动态数据:股票数据、业务数据2010-5-24中国科学院计算技术研究所17问题与挑战问题与挑战算法•算法–算法选择算法选择–并行策略算法设计–算法设计–参数调节–性能提高2010-5-24中国科学院计算技术研究所18问题与挑战问题与挑战不确定性•不确定性–数据挖掘任务描述的不确定性数据挖掘任务描述的不确定性–数据采集和预处理的不确定性–数据挖掘方法和结果的不确定性–数据挖掘结果评价的不确定性数据挖掘结果评价的不确定性2010-5-24中国科学院计算技术研究所19问题与挑战问题与挑战信•可信–服务的正确性:正确性是指没有不当的系统状服务的正确性:正确性是指没有不当的系统状态–服务的安全性:没有灾难性的环境后果服务的安全性:没有灾难性的环境后果–服务的质量:™可用性准备好提供正确服务的概率™可用性:准备好提供正确服务的概率™可靠性:在给定的一段时间内提供正确服务的概率™高性能响应时间和吞吐量™高性能:响应时间和吞吐量–隐私安全:不允许未授权的访问2010-5-24中国科学院计算技术研究所20问题与挑战问题与挑战安全•安全–数据安全数据安全•隐私数据保护–过程安全–过程安全™模型与需求一致™算法可检验™算法可检验™过程对用户可控、可视™结果仅对用户可理解™结果仅对用户可理解–公共安全云计算安全的本质是信任管理™云计算安全的本质是信任管理2010-5-24中国科学院计算技术研究所21对策对策基础建设数据挖掘服务平台•基础建设:数据挖掘云服务平台–专业人士成为服务的提供者–大众和各种组织成为服务的受益方–按领域、行业构建按领域、行业构建•虚拟化:计算资源自主分配调度需求大众参与应对个性化多样化的需求•需求:大众参与应对个性化多样化的需求•可信:算法通用、可查、可调、可视•安全:隐私数据由客户自己在平台终端完成加密保护密保护2010-5-24中国科学院计算技术研究所22内容提要内容提要算起•云计算的兴起数据挖掘发展历程•数据挖掘发展历程•云数据挖掘实践•云数据挖掘实践•云数据挖掘未来走向云数据挖掘未来走向23中国科学院计算技术研究所2010-5-24已完成的工作PDMiner已完成的工作― PDMiner在计算平台基础上在云计算平台Hadoop基础上,2008年底我们为中国移动开发了基于云年底我们为中国移动开发了基于云计算的并行数据挖掘系统24中国科学院计算技术研究所2010-5-24已完成的工作PDMiner已完成的工作― PDMiner具有以下特点•PDMiner具有以下特点:–提供一系列并行挖掘算法和ETL操作组件–开发的并行ETL操作达到了线性加速比–可实现TB级海量数据的预处理及之后的并行挖可实现级海量数据的预处及之后的并行挖掘分析处理–挖掘算法随节点数线性增加,加速比随之增加挖掘算法随节点数线性增加加速随增加–可稳定运行在256个节点组成的Linux集群环境下,具有高可扩展性下具有高可扩展性25中国科学院计算技术研究所2010-5-24已完成的工作PDMiner已完成的工作― PDMiner多个工作流任务可在云计算环境下的任意节点–多个工作流任务可在云计算环境下的任意节点同时

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功