深圳大学计算机与软件学院1大数据与云计算:--信息技术发展的新纪元黄哲学博士深圳大学特聘教授大数据技术与应用研究所所长深圳大学计算机与软件学院2大纲大数据与云计算云计算大数据平台与技术创新大数据平台产业化与应用案例深圳大学计算机与软件学院3什么是大数据对数据的使用者来讲,如果数据集超出了使用者所拥有的信息处理和分析的能力,就给使用者带来了大数据问题深圳大学计算机与软件学院4大数据V特征Volume数据规模大Velocity数据变化数据快Variety数据属性复杂Value价值大数据的特点并不只是数据规模大深圳大学计算机与软件学院5•数据的量呈现指数增长•2009年至2020年将增加44倍•数据的体量从0.8zettabytes增加到35ZB生成和采集的数据将按指数增长根据麦肯锡预计美国超过1000雇员的公司,平均每个公司存有200TB的数据,很多行业的公司,如银行、电讯、互联网、政府部门等,平均存储的数据超过1个PB。深圳大学计算机与软件学院6大数据的多样性Variety•不同的数据格式,数据类型和数据结构•文本、数字、图像、音频、视频、时间序列、社会媒体数据、高维矩阵数据等•静态数据vs.流数据•同一个应用可以生成和采集不同类型的数据为了提取知识尽可能多地综合不同类型的相关数据深圳大学计算机与软件学院7大数据的速度Velocity•数据的采集速度的加快导致处理时间都需要有相应的提高•在线数据分析(OnlineDataAnalytics)•决策的延误商机的消失•实例•网上营销(E-Promotions):基于用户当前的位置和过往的交易数据预测用户的喜好在合适的时间和地点发送用户感兴趣的产品和店铺•健康监控(Healthcaremonitoring):利用穿戴式的传感器监控用户的生理和活动数据及时提供需要的医疗服务深圳大学计算机与软件学院8大数据的价值(Value)未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。美国医疗保健每年产值达3000亿美金每年生产率增长约0.7%制造业最多可节省50%的产品研发、组装成本最多可节约7%的营运资金美国零售业净利率增长可能高达60%+每年生产率增长0.5-1.0%欧洲公共部门管理每年2500亿欧元每年生产率增长约0.7%全球个人定位数据1000亿+的服务供应商收入为终端用户带来高达7000亿美的价值深圳大学计算机与软件学院9大数据的产生•数据的发展和创新将不再是如何生成和采集数据•具备对采集的数据进行管理、分析、总结、可视化展示和知识发现的能力已经成为新的挑战社会媒体网络(每个人都在产生数据)科学仪器(采集不同类型的数据)移动终端(个人地理信息数据)传感器网络(测量不同类型的数据)深圳大学计算机与软件学院10大数据的技术挑战•存储–分布式、低成本•传输–能力、成本•处理–集成、融合、处理•分析–能力、效率•挖掘–方法、能力、技术、平台•应用•能耗深圳大学计算机与软件学院11互联网与电讯行业需求•某互联网公司•100多在线游戏,4亿在线游戏用户•在线系统记录每个游戏用户在线玩游戏的详细数据,包括游戏、时间、动作、结果等,TB级数据•分析需求:•用户行分类与预测,用户行为客户群划分•用户挽留、用户奖励和级别提升•某电信公司•深度包检测(DPI)大数据分析,研究客户互联网行为模型,流量分析,数据套餐设计•百万人口城市,每天数据量TB级深圳大学计算机与软件学院12云计算•云计算是一种新的大规模分布式计算模式•通过网络和资源虚拟技术,实现计算及存储资源集中管理,面向用户提供服务•云计算可以解决目前计算机使用的诸多问题,是计算技术发展的一个新的里程碑2020/2/1212传统计算机的问题•使用成本高•资源分散•资源不足•资源浪费•高能耗•环境污染云计算的优点•成本低•易于普及•可扩展能力高•节能•环保深圳大学计算机与软件学院13云计算的五个基本特征1.按需自助服务(On-demandself-service)2.广泛的网络接入(Broadnetworkaccess)3.资源池(Resourcepooling)4.快速弹性化(Rapidelasticity)5.可度量的服务(MeasuredService)2020/2/1213深圳大学计算机与软件学院14云环境(ACloud)•云指的是一个遥远的计算环境,这个环境是用来为计算环境外的用户提供可扩展和可度量的计算资源。•用户可能不知道具体的云环境在哪里。如用户在深圳,云环境可能在内蒙古。2020/2/1214深圳大学计算机与软件学院15云环境的计算资源•物理服务器—CPU,内存,外存(磁盘、磁带)•虚拟服务器—CPU,内存,外存•软件•服务(应用)2020/2/1215物理服务器虚拟服务器软件服务深圳大学计算机与软件学院16虚拟化是云计算的核心技术•虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用,多个用户共享物理服务器的资源,但用户对虚拟服务器的体验是独立的计算机。用户不需要了解物理服务器•虚拟服务器的运行由物理服务器统一管理和维护,虚拟机用户不需要维护。•当某虚拟机用户需求变化时,物理服务器的资源可以自动扩展。2020/2/1216深圳大学计算机与软件学院17弹性化和可扩展性•弹性化是云计算的重要特征,计算资源弹性化可以使云环境的计算能力随着用户需求变化而增加或减少。•水平扩展•向外扩展Scaleout—增加资源•向内收缩Scalein—减少资源•垂直扩展•向上扩展Scaleup—提升CPU和内存•向下收缩Scaledown–降低CPU和内存2020/2/1217云服务器深圳大学计算机与软件学院18面向服务ServiceOrientation•云计算的独特特征是服务导向或面向服务,就是将计算和存储资源作为服务供用户使用•服务的收费方式是谁使用谁付钱,例如:•付使用存储服务的费用•付使用CPU的费用•付使用数据库软件的费用•用户不拥有这些资源,因此不需维护它们2020/2/1218深圳大学计算机与软件学院19云计算的三种基本服务模式•云设施服务CloudInfrastructureasaService(IaaS)•云平台服务CloudPlatformasaService(PaaS)•软件作为服务CloudSoftwareasaService(SaaS)2020/2/1219深圳大学计算机与软件学院20云计算架构CloudArchitecture2020/2/1220虚拟化计算服务ComputingService存储服务StorageServiceDBMSMapReduceGoogleAppEngineCRMERPCAD/CAMPOSWindowsAzureInfrastructureasaService(IaaS)PlatformasaService(PaaS)SoftwareasaService(SaaS)物理资源深圳大学计算机与软件学院21云服务应用的部署模型•公有云Publiccloud•私有云Privatecloud•社区云Communitycloud•混合云Hybridcloud2020/2/1221深圳大学计算机与软件学院22大纲大数据与云计算云计算大数据平台与技术创新大数据平台产业化与应用案例深圳大学计算机与软件学院23挑战性的技术问题AccesstoDiverseHeterogeneousDistributedDataExpressionArrays(varioustissues)PersonalgenomicsX-rays,MRI,mamograms,etcClinicalRecordAnalysislabnotesHospitalevents....admission,surgery,recovery,discharge1.PatientInformation数据融合(fusion)数据集成(integration)挑战病人健康医疗数据没有有效的数据集成就不能进行有效的综合数据分析深圳大学计算机与软件学院24挑战性的科学问题成千上万个属性超高维问题百万以上甚至超亿个记录1.混合数据类型2.缺省值/噪声3.相关性问题4.Unbalance5.Subspaceproperty6.Uninformativeness12nn-1n-2n-3n-4f1f2f3f4f5…大数据集的挑战(BigDataMatrix)深圳大学计算机与软件学院25超高维数据聚类算法研究1.对属性变量做分组归并,产生组变量2.对组变量和属性变量分层加权重3.扩展软子空间聚类算法EWKM,在聚类过程中自动计算组变量权重值和属性变量权重值4.最后得到以组变量为主的子空间聚类结果组变量相当于在高空看数据,大轮廓清晰属性变量相当于在低空看数据,细节清晰组变量属性变量深圳大学计算机与软件学院26SRF:基于MapReduce大数据随机森林算法Layer宽度优先、大规模分层建树策略深圳大学计算机与软件学院27大数据随机森林算法研究成果属性加权抽样随机森林算法,用于超高维数据分类,平均精度提高20%。与澳大利亚联邦税务总局数据挖掘首席科学家GrahamWilliams合作,将随机森林算法用于ATO缴税分类建模。分布式高可扩展随机森林分类算法,实现了对千万个客户记录、千个变量、100GB规模数据的建模能力。将分布式随机森林算法发布到国际著名的统计分析平台R系统上,扩大国际影响力。研究成果国际化推广研究成果国际化应用随机森林模型并行化实现属性加权抽样随机森林模型深圳大学计算机与软件学院28云计算与大数据分析•数据挖掘是从数据中发现知识的方法和过程,是解决各种科学和应用问题的重要手段•由于数据的快速增长,传统的数据挖掘技术和软件正面临极大的瓶颈•银行:人民银行征信系统收录了自然人6.4亿人的信贷记录•金融:南方基金公司有近1000万客户资料需要分析•电讯:广东中国移动每天产生2TB通话记录数据•零售:Wal-Mart每天产生2.6亿个交易记录,其数据中心存储4PB的交易数据•互联网:Amazon有5900万活跃客户,超过42TB的客户数据2020/2/1228云计算的优点是处理海量数据的能力,为大数据挖掘提供了新的计算平台深圳大学计算机与软件学院29云计算海量数据处理的核心技术2020/2/1229虚拟文件系统数据划分•GFS(Google)•HDFS(Hadoop)MapReduce编程模型算法编程•Map和Reduce两个基本操作•大规模分布计算•可扩展性运行时系统程序运行•负载平衡•任务调度•容错深圳大学计算机与软件学院30MapReduce编程模型主节点节点节点节点节点节点用户编程文件文件文件文件文件输出输出文件划分Map运算Reduce运算结果输出程序写成Map和Reduce两步运算1.Map统计单个文本词频2.Reduce综合所有文本的词频(Map)(Reduce)深圳大学计算机与软件学院31MapReduce管道式运算2020/2/1231MRMRMRMRK-均值聚类对象分簇MapReduceMRMRMRMRMRMRMRMR输出输入?????收敛?重新计算簇中心点深圳大学计算机与软件学院32基于云计算的大数据分析平台区域智能数据中心区域智能数据中心支持多种终端访问以区域性智能数据中心及高速互联网为基础设施以互联网服务体系为架构以大数据存储、处理、挖掘和交互式可视化分析等关键技术为支撑通过多样化移动智能终端及移动互联网为用户提供数据存储、管理及分析服务。深圳大学计算机与软件学院33关键技术云计算引擎高性能海量数据挖掘算法库工作流引擎支撑海量数据处理、挖掘与分析运算提供海量复杂数据处理、分析与挖掘高可扩展算法数据处理分析流程图形化设计数据处理分析流程自动执行资源调度及优化OpenAPI提供数据挖掘平台与第三方应用系统的扩展接口支撑海量数据存储与管理云存储大数据分析平台深圳大学计算机与软件学院34云计算大数据挖掘平台110台服务器,840CPU核,550TB存储容量构