大数据技术–导论1内容23什么是大数据•定义1:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.---Wiki4什么是大数据•定义2:3VBigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization--Gartner大数据的4V特性VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天5大数据及其4V特征海量数据规模(volume):TB级PB级快速处理(velocity):快速数据流转和动态数据体系多样数据类型(variety):数据类型繁杂巨大数据价值(value):价值稀疏、多样、不确定值得关注的大数据的若干研究方向分布式数据存储与管理:对大数据进行存储与管理数据挖掘与商务智能:对大数据规律进行挖掘与发现物联网与CPS:产生与形成大数据云计算及服务平台:存储和处理大数据及其业务关注点:海量数据处理=分布式存储与管理=云计算=数据挖掘与分析=海量业务处理=大服务7什么是大数据•定义3:当数据的规模和性能要求成为数据管理分析系统的重要设计和决定因素时,这样的数据就被称为大数据–不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度•以目前计算机硬件的发展水平看–针对简单查询(如关键字搜索),数据量为TB至PB级时可称为大数据–针对复杂查询(如数据挖掘),数据量为GB至TB级时即可称为大数据8什么是大数据定义4:大数据有两个基本特征不同于传统的数据集:1.大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间2.大数据以半结构化或非结构化数据为主,具有较高的复杂性。内容9克强指数(Likeqiangindex):耗电量铁路货运量银行贷款发放量英国著名政经杂志《经济学人》认为:克强指数比官方GDP数字更能反映中国经济的现实状况。花旗银行在编制时将各自权重分别设定为40%、25%和35%。12大数据涉及诸多不同的领域用户生成数据DeepWeb数据多模态内容数据天文气象基因医学经济物理其他领域网络与关系数据13大数据的价值•科研价值–1998年图灵奖得主、数据库技术奠基人JimGray认为数据驱动的研究将是第四种科学研究范式•”TheFourthParadigm:Data-IntensiveScientificDiscovery”–大数据已为多个不同学科的研究工作提供了宝贵机遇•经济价值–麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益–著名Gartner公司:到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%•工业价值–分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解–二次开发:创造出新产品和服务。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式•社会价值–例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格动态•其他价值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的创始人TimO‘Reilly深网挖掘深空探索2012年我国神州九号进入太空深海探测2012年我国蛟龙号探测水下7000米实现大数据价值的深度挖据和高度利用!大数据的战略意义•大数据的深度资源挖掘与价值利用是国家战略•从深空+深海深网14大数据的现实需求:感知现在15感知现在:历史数据与当前数据的融合,潜在线索与模式的挖掘,事件、群体与社会发展状态的感知中国发展指数(物价、环境、健康)需求:掌握现状,如淘宝CPI、环境指数难点:PB级社会媒体数据,百亿级日志数据,结构与非结构数据关联,历史与流式数据并存犯罪线索挖掘需求:发现线索,如罪犯行为轨迹难点:PB级日志数据、EB级监控数据中发现嫌疑人及其行为模式犹如大海捞针问题与挑战:数据规模巨大、模态多样、关联复杂、真伪难辨现有数据处理方法感知度量难、特征融合难、模式挖掘难15大数据的现实需求:预测未来联合国“全球脉动”(GlobalPulse):利用网络大数据预测失业率与疾病爆发等现象,利用数字化的早期预警信号来提前指导援助项目。问题与挑战:数据交互性强、实时性强、动态演变,导致传统数据计算方法:数据生命周期的割裂、时效性与准确性难以兼顾、演变趋势难以预测基于Twitter数据的选举结果预测:通过对Twitter等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。预测未来:全量数据、流式数据、离线数据的关联分析,态势与效应的判定与调控,揭示事物发展的演变规律,进而对事物发展趋势进行预测1617美国的大数据规划-大数据上升为国家意志•2012年3月29日,美国联邦政府整合6个部门宣布2亿美元的“BigDataResearchandDevelopmentInitiative”–促进采集、存储、维护、管理、分析和共享海量数据的核心技术;–利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;–培养开发和使用大数据技术的人力资源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA18欧盟的大数据规划-基础设施是先导•Horizon2020-TheFrameworkProgrammeforResearchandInnovation–面向大数据的数据信息化基础设施(E-Infrastructure)是优先资助领域•GRDI2020-GlobalResearchDataInfrastructures–建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合•FP7Call8IntelligentInformationManagement-BigData–预算5千万欧元,2012-1-17截止–目标:•提升发现、分析、开采、使用大数据及其基础设施的能力•通过对大数据收集与分析创造更大价值•探索基于大规模互联数据资源与专用基础设施的新型科学研究•面向大数据的人力资源开发19学术界对大数据的关注2012年1月,NaturePhysics上出版专刊“Complexity”特别指出大数据为科学研究,特别是复杂性科学的研究提供了史无前例的机遇2008年,Nature出版专刊“BigData”从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了大数据所带来的技术挑战2011年,Science刊登专刊“DealingwithData”讨论了数据洪流(Datadeluge)所带来的挑战,也特别指出倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用2012年4月,欧洲信息学与数学研究协会会刊ERCIMNews上出版专刊“BigData”讨论了大数据时代的数据管理、数据密集型研究的创新数据库技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展20大数据会议/Workshop•BDA:InternationalConferenceonBigDataAnalytics––2012:12月24-26日,印度;第1届•BigMine:WorkshoponBigData,StreamsandHeterogeneousSourceMining:Algorithms,Systems,ProgrammingModelsandApplications––2012:与SIGKDD合办;8月12日,北京;第1届•BigDataEurope系列会议––展示大数据实践与方案;加强业界人员交流–2012:Zurich,Vienna,Paris,Frankfurt,London–2013:Stockholm,Warsaw,Istanbul•BigDataAnalytics2012––6月20日,伦敦学术会议工业会议内容22KB210220MB230GB240TB250PB260EB270ZB280YB10310610910121015101810211024数据量级数据量单位千字节兆字节吉字节太字节拍字节艾字节泽字节尧字节2901027BB?字节24大数据总量增长态势25目前大数据的规模IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB(1021)。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。26目前大数据规模─示例•天文观测数据:–SloanDigitalSkySurvey:2000年部署•几周收集的数据比历史上收集的数据还多•每晚收集200G的数据,已收集了140TB=1.4x105GB的数据–LargeSynopticSurveyTelescope:2016年完成部署•每5天可收集105GB的数据•物理实验数据:–LargeHadronCollider:2010年一年产生13PB=1.3x107GB数据•互联网数据:–Facebook:用户超7亿,每月上传10亿照片,每天生成3x105GB日志数据–淘宝:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生2x104GB数据•IBM估计:–全球每天生成2.5EB=2.5x109GB数据,90%的已有数据是过去两年生成的•Cisco预测:–到2013年,互联网上的数据将达到667EB=6.67x1011GB271.收集的数据还没有实现高度共享和深度利用2.超大规模:为保证可靠性,需要存储数据副本,实际存储的数据量数倍于净数据量3.时空属性:包含时间与位置信息4.模糊高维:数据未必精确和完整:传感器误差,网络中断……5.数