聚焦客户海外拓展开放创新乙方文化ChinaComservice1大数据的价值发现2014.10上海邮电设计咨询研究院有限公司聚焦客户海外拓展开放创新乙方文化ChinaComservice2目录大数据是什么?大数据能干什么?大数据需要什么?大数据用在哪里?1.大2.复杂3.方法体系聚焦客户海外拓展开放创新乙方文化ChinaComservice3什么是大数据—数据量爆发增长GBTBPBEBZB中国入ZB时代2013年中国产生的数据总量超过0.8ZB2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB全球进入ZB时代IDC报告显示,预计到2020年全球数据总量将超过40ZB随着移动互联网、云计算、物联网技术和业务的发展,数据呈爆炸性增长1PB=2^50字节1EB=2^60字节1ZB=2^70字节农业时代机械时代电子时代数据时代聚焦客户海外拓展开放创新乙方文化ChinaComservice4什么是大数据—”4V”特征4V特征定义了大数据的“量”“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。VolumeVelocityValueVariety聚焦客户海外拓展开放创新乙方文化ChinaComservice5什么是大数据—复杂性两个“异构性”问题:“数据异构性”“决策异构性”非结构化和半结构化数据不确定性特征描述的刻画方法数据异构性决策异构性聚焦客户海外拓展开放创新乙方文化ChinaComservice6什么是大数据—NP-Hard问题排序法平均时间最差情形稳定度额外空间备注冒泡O(n2)O(n2)稳定O(1)n小时较好交换O(n2)O(n2)不稳定O(1)n小时较好选择O(n2)O(n2)不稳定O(1)n小时较好插入O(n2)O(n2)稳定O(1)大部分已排序时较好基数O(logRB)O(logRB)稳定O(n)B是真数(0-9),R是基数(个十百)ShellO(nlogn)O(ns)1s2不稳定O(1)s是所选分组快速O(nlogn)O(n2)不稳定O(nlogn)n大时较好归并O(nlogn)O(nlogn)稳定O(1)n大时较好堆O(nlogn)O(nlogn)不稳定O(1)n大时较好单维数列的计算时间复杂度对多于2维的数据排序来说,其计算时间复杂度已经超过问题的变量数,因此任何一个超过2维的数据搜索问题都是NP问题,而随着数据量的增长,排序、搜索时间的非线性增长使得大数据的计算尤为艰难。聚焦客户海外拓展开放创新乙方文化ChinaComservice7什么是大数据—方法体系(1/3)大数据带来三大思维变革,即要全体不要抽样,要效率不要绝对精确,要相关不要因果。---舍恩伯格大数据技术革命还将为科学研究提供新的思维方式和新的科学方法,因此大数据技术必然会对传统的科学方法论产生巨大的挑战,带来科学方法论的革命。---江南大学学报在多样性、体量、速度、低密度价值四大主要特征的指引下,大数据将以一种全新的系统方法为社会、个人提供增值服务执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界之窗。聚焦客户海外拓展开放创新乙方文化ChinaComservice8什么是大数据—方法体系(2/3)从大数据的特征定义理解行业对大数据的整体描绘和定性;从大数据价值探讨解析大数据的珍贵所在;从大数据的现在和未来洞悉大数据的发展趋势;从大数据隐私审视人和数据之间的长久博弈大数据存在于社会的各个角落个人数据的大量积累与挖掘也能创造出新的价值聚焦客户海外拓展开放创新乙方文化ChinaComservice9什么是大数据—方法体系(3/3)聚焦客户海外拓展开放创新乙方文化ChinaComservice10目录大数据能干什么?大数据是什么?大数据需要什么?大数据用在哪里?1.价值发现2.大数据处理与存储3.预测与决策参考聚焦客户海外拓展开放创新乙方文化ChinaComservice11大数据能干什么—价值发现Volume海量的数据规模Variety多样的数据类型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数据流转发现数据价值在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值---大数据,更多的应用是分析过去,提醒现在,展望未来。无法用到实践中去的大数据都是耍流氓!Google利用人们的搜索记录预测某地流感爆发的趋势Amazon利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐Farecast利用过去十年所有的航线机票价格打折数据预测用户购买机票的时机是否合适警察利用以图搜图功能通过监控视频自动监控嫌疑人聚焦客户海外拓展开放创新乙方文化ChinaComservice12大数据能干什么—海量数据的存储与分析大数据时代不仅数据量巨大,更新迅速,使用更具随机性,而且数据结构异常复杂,80%以上都是非结构化数据,诸如视频、音频、邮件、图片等,并且数据格式之间互不兼容,这给数据的提取、存储、管理以及搜索等应用带来了很大困难,对企业的信息管理提出了更高的要求。传统DW难以处理大数据原因•数据量过于庞大•绝大部分数据是无序的垃圾•数据格式多样化大数据方法•海量数据“分而治之”批量分布式并行计算•海量数据“灵活多变”实时分布式高吞吐高并发数据存取处理•海量数据“跨越鸿沟”大数据超高速装载进数据库Datastore1Datastorenmap(key1,values...)(key2,values...)(key3,values...)map(key1,values...)(key2,values...)(key3,values...)Inputkey*valuepairsInputkey*valuepairs==Barrier==:Aggregatesintermediatevaluesbyoutputkeyreducereducereducekey1,intermediatevalueskey2,intermediatevalueskey3,intermediatevaluesfinalkey1valuesfinalkey2valuesfinalkey3values...MapReduce的原理聚焦客户海外拓展开放创新乙方文化ChinaComservice13大数据能干什么—数据挖掘(1/2)2020年的一天,在你开车的路上,导航系统通过预测交通流量自动帮你选择一条最合适的交通路线;车内推荐系统会推荐沿途的早餐店;你的电子社交助理已经为你自动选择了你可能感兴趣的社交网信息;当车内系统预测到你驾车有些分心时,座椅会自动震动进行提醒……聚焦客户海外拓展开放创新乙方文化ChinaComservice大数据能干什么—数据挖掘(2/2)12聚焦客户海外拓展开放创新乙方文化ChinaComservice15目录大数据需要什么?大数据是什么?大数据能干什么?大数据用在哪里?1.采集与存储2.分布式处理3.算法与软件聚焦客户海外拓展开放创新乙方文化ChinaComservice16大数据需要什么?聚焦客户海外拓展开放创新乙方文化ChinaComservice17大数据需要什么—采集与存储技术政府机构(医保,社保)短信通话记录数据分类数据来源运营商存储区域业务平台汇聚、分析、入库医院大型企业交通信息视频监控Email社保、医保、住宿、交通视频监控网络信息数据导入信息采集系统各类型存储统一管理,化繁为简分层可视化,直观监控,高效排障智能分析提升服务质量,节约成本与移动运维结合,管理更智能存储管理软件统一监控与管理报警管理拓扑安全在线存储近线存储大数据存储聚焦客户海外拓展开放创新乙方文化ChinaComservice18大数据需要什么—分布式数据管理技术分布式存储技术(Hadoop)采用主从架构,由一个Namenode和若干个Datanode组成Namenode:负责管理名字空间与客户端访问Datanode:管理附带的存储,存储文件的block一个文件分成多个block,Block是HDFS最小存储与分配单位,,分布存储,典型块大小为64MB或128MB一个block被复制存放于多个datanode聚焦客户海外拓展开放创新乙方文化ChinaComservice大数据需要什么—分布式数据管理技术待处理数据量巨大短时间处理如何进行并行分布式计算?如何分发待处理数据?如何处理分布式计算中的错误?MapReduce模型Google公司的核心计算模型17聚焦客户海外拓展开放创新乙方文化ChinaComservice20大数据需要什么—数据分析算法大数据需要什么样的算法能反映大数据分布的抽样方法基于大数据分布式存储的的算法高效并行的数据挖掘算法反映全量特征的算法大数据算法应用类型数据清理(消除不一致数据,补缺)数据集成(多种数据源可以组合在一起)数据选择(从数据库中提取相关的数据)数据变换(变换成适合挖掘的形式)数据挖掘(使用智能方法提取数据模式)模式评估(识别提供知识的真正有趣模知识表示(可视化和知识表示技术)软件是大数据的灵魂聚类技术将数据元组视为对象。它将对象划分为聚类,使在一个聚类中的对象“类似”,但与其它聚类中的对象“不类似”K均值聚类算法聚焦客户海外拓展开放创新乙方文化ChinaComservice21目录大数据用在哪里?大数据是什么?大数据能干什么?大数据需要什么?1.行业应用2.社会安全(示例)3.信息智能化(示例)聚焦客户海外拓展开放创新乙方文化ChinaComservice22大数据用在哪里?HomelandSecurityFinanceSmarterHealthcareMulti-channelsalesTelecomManufacturingTrafficControlTradingAnalyticsFraudandRiskLogAnalysisSearchQualityRetail:Churn,NBO奥巴马将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。聚焦客户海外拓展开放创新乙方文化ChinaComservice23大数据用在哪里—公共安全(2/2)银行交易历史资料库/知识库公共信息政府数据库Internet截获监听情报通信情报人工情报定性,定量分析时间&频率分析刑侦犯罪预防非法出入境判别海关走私紧急事件处理交通管理数据提取WarehouseBuilder数据挖掘DataMiner多维分析BIBeans报表Reports数据源大数据分析应用聚焦客户海外拓展开放创新乙方文化ChinaComservice24大数据用在哪里—公共安全(2/2)美国国家海洋和大气管理局(NOAA)每年的IT预算高达10亿美元。2011年3月11日日本大地震发生后仅9分钟,就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在YouTube等网站。NOAA的数据中心“大数据”技术让我们在面对不可抗拒、预知的自然力量时候,能够最大程度的保护自己,避免经济损失。利用手机用户身份和位置的检测可了解突发性事件的聚集情况。利用短信、微博、微信和搜索引擎可以收集热点事件与舆情挖掘。视频监控摄像头广泛应用于国内多个城市的主要道路、热点地区、地铁和居民小区的安全监视。北京超市开放食品架前均要求装能清晰拍到走在架前的人的脸部。聚焦客户海外拓展开放创新乙方文化ChinaComservice25大数据