大数据概论(TheBigData)MainContents什么是大数据大数据的前世、今生大数据产生的背景大数据的国内外现状大数据技术概述大数据的价值所在大数据(BigData),是一个泛概念,其实,“大数据”归根结底还是数据,其是一种泛化的数据描述形式,有别于以往对于数据信息的表达,大数据更多地倾向于表达网络用户信息、新闻信息、银行数据信息、社交媒体上的数据信息、购物网站上的用户数据信息等。大数据的“大”体现在数据信息是海量信息,且在动态变化和不断增长。WhatisBigData?20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念大数据的“大”体现在如下几个方面:•体量(Volume):互联网的飞速发展,导致非结构化数据高速增长和超大规模,占到数据总量的80%-90%之多,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。•多样性(Variety):大数据是异构的、且多样性的。诸多不同的表现形式:文本、图形图像、视频、机器数据等;无模式或者模式不明显;不连贯的语法或语义。•价值密度(Value):大量的不相关信息;对未来趋势和模式的可预测分析;深度的复杂分析;•速度(Velocity):实时分析而非批量式分析;立竿见影而非事后见效。大数据之“大”大数据所涉及的数据量,有些是之前并不存在,有些是之前已经存在,只是没有被收集和分析。大数据的数据信息主要是互联网上的数据信息,其具有巨“大”的商业价值,通过数据分析等手段,这些之前不被重视的数据信息能够揭示其它手段所看不到的隐含知识和新趋势,例如,网购中可预测需求、供给和顾客习惯等,做到精准采购、精准投放。大数据之“数据”大数据的“精准营销”消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象TB级以上的数据处理;•B,KB,MB,GB,TB,PB,EB,ZB,JB比“大”更棘手的数据的复杂性。虽然如此之大,有时候甚至大数据中的小数据如一条微博就具有颠覆性的价值。合适的方法寻找有价值的信息!大数据不仅仅“大”Google每天要处理超过24PB的数据;Facebook每天更新的照片超过1000万张;YouTube每月接待多达8亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传;Twitter上的信息量几乎每年翻一倍,截至2012年,每天都会发布超过4亿条微博;大数据的前世•科学数据分析•数据挖掘•数据仓库•传统电子商务数据分析等。大数据的今生•微博数据信息分析•网络购物数据信息分析•手机用户使用信息分析(移动设备数据)•传感器数据分析大数据的前世、今生互联网企业:SNS、微博、视频网站、电子商务网站物联网、移动设备、终端中的商品、个人位置、传感器采集的数据联通、移动、电信等通信和互联网运营商天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据数据的爆发式增长和社会化趋势,新摩尔定律;大数据已经成为一种自然资源,是一座丰富的矿藏;机器数据日益重要;大数据不被利用就是成本,矿藏就会被埋没,失去其潜在的价值;大数据产生的背景大数据产生的背景现有的商业软件难以处理大数据的规模和复杂性。•获取(capture)•存贮(storage)•搜索(search)•分享(sharing)•分析(analysis)•可视化(visualization)大数据产生的背景商业上的需求是主要驱动力!商业需求驱动——变身国家战略(美国国家战略)——促进进一步发展。互联网的社会化是大数据产生的直接推动力!利益驱动才是促进终极发展的核心原因!大数据产生的背景大数据的国内外现状雅虎提供静态的导航信息Google分析用户搜索信息,满足用户需求Facebook用户产生内容,创造需求。互联网越来越智慧1并购进行技术整合2自身提高研发实力相较于“大数据”一词在2011年才开始蹿红不同,在计算机研究领域和产业界,“大数据”早已众人皆知,各大IT巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占全新的制高点各大IT企业纷纷推出自身的大数据分析产品,包括Google、IBM、EMC、Oracle、微软、惠普、SAP、Teradata,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势Google:从搜索到广告公司聪明的GOOGLE其实是互联网公司+广告公司+美国政府的情报员Google:1998起家:网络零售;发展:通过云平台提供低成本的数据存储服务;现在&未来:大数据分析;亚马逊:从云平台到大数据印象:商用机、笔记本电脑、服务器;发展:剥离盈利微弱的笔记本电脑业务给联想,重点收购了多家数据库公司、数据分析公司、大数据公司,着力打造数据分析业务,顺道卖服务器;现在&未来:数据分析服务。IBM:数据分析之道美国国务院采用大数据技术开发新的美国护照系统。IBM宣布投资1亿美元用于大数据研究;美国IT公司开始意识到大数据技术能够为公司创造价值;大数据公司引入汽车行业高管人员扩展营销业务;起家:QQ即时通讯软件,波折中发展,通过集成游戏度过了极为艰难的三年,此后,伴随着中国互联网的告诉发展,进入了黄金十年。发展:黄金十年发展期,集即时通讯、门户、娱乐、广告、网游于一体,拥有所谓的五亿以上的用户群体。现在&未来:基于移动互联网的微信告诉发展。用户为王+数据为王,两者皆占,独霸中国市场,目前来暂无可匹敌。需要解决如此大规模的用户数据如何变成¥。国内:腾讯起家:搜索引擎,经历过“战国时期”的乱战,以“更懂中国、更懂中国用户”迅速发展。发展:即使在Google没有撤离之前,也占据70%以上的中国搜索引擎市场;百度知道,让Baidu更加被“知道”,成为在线教科书和解决方案。百度文库让其笼络了大量的文本资源。现在&未来:错过了移动互联网的入口。用户依旧很多,通过大数据分析做精准广告投放,依旧在走Google的路。国内:Baidu起家:电子商务平台(中间商);发展:淘宝为代表的网上零售业务迅猛发展,带动物流、现金流飞速发展。现在&未来:整合现金流,余额宝。大数据分析了解用户行为和习惯,进行精准广告投放和营销。国内:阿里巴巴&淘宝系个人电脑及存储设备增长较多;云平台的安全保障问题;云平台的隐私保护问题;云平台的服务提供问题;用户习惯免费、带来的自然是免费服务提供商同时获得了用户的各种信息。这类企业拥有庞大的用户群,如腾讯和阿里巴巴为大数据分析储备的足够的数据基础。文化差异致云端使用步履蹒跚大数据与云计算大数据与云计算大数据与云计算用户只需要一台具备基本计算能力的计算设备以及一个有效的互联网连接,就可以随时随地使用该服务随时随地用户具备使用该服务的需求,但是并不具备独立提供该服务的经济或者技术条件低成本云计算平台提供计算能力(包括处理器、内存、存储、网络接口),但是并不关心用户的应用类型按需供应把计算能力像水和电一样提供给用户按量计费白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!大数据的价值所在有人认为大数据是大麻烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、大利润、大发展…麻烦个人隐私,信息安全,各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上PB的数据,真麻烦!挑战传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!机遇在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!大数据的价值所在2010年12月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了《规划数据未来》的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战。。。。应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”2012年3月29日,奥巴马政府又进一步推进了其“大数据战略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席霍尔德伦代表国防部、能源部等6个联邦政府部门宣布,将投入2亿多美元立即启动“大数据发展研究计划”BigDataResearchandDevelopmentInitiative,以推动大数据的提取、存储、分析、共享和可视化。美国政府推出了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马希望借助大数据来将美国经济带出泥潭。从基础建设、到IT硬件、软件、网络,最后到数据。案例1:塔吉特,比父亲更早知道女儿怀孕•曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。•数据信息记录;(基础信息)•构建数据模型;(经验总结、预测模型)•建立与用户的沟通渠道;(智慧营销)大数据的价值所在大数据分析价值:根据AndrewPole的大数据模型,Target连锁制订了全新的广告营销方案,结果Target的孕期用品销售呈现了爆炸性的增长。AndrewPole的大数据分析技术从孕妇这个细分顾客群开始向其他各种细分客户群推广,从AndrewPole加入Target的2002年到2010年间,Target的销售额从440亿美元增长到了670亿美元。案例2:通过大数据分析降低罪案率;•纽约的犯罪凶杀从1994年1561起下降到1177起;•车辆盗窃从95420下降到72679起;•到2009年,凶杀案下降到466起;大数据的价值所在案例3:阿里巴巴成功预测金融危机;马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。大数据的价值所在腾讯在天津投资建立亚洲最大的数据中心;新浪推出企业微博产品,提供精准的数据分析服务。在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。标准的虚拟化及分布式存储内存计算技术——SAP中国区企业信息管理咨询资深顾问杜韬Hadoop数据应用策略、数据流技术机器学习算法——百度首席科学家威廉.张Hadoop数据采集、数据存储、数据处理——Yahoo!北京全球软件研发中心架构师韩轶平持续创新传统的企业级数据仓库产品线收购AsterDataHadoop、MapReduce——Teradata首席客户官周俊凌马云的判断来自于数据分析双“十一”背后的技术讨论在全球经济的很多领域,大数据在以很多的方式创造价值。事实上,研究表明:随着消费者、公司、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大的浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。——《大数据:下一个创新、竞争和生产率的前沿》麦肯锡全球研究所2011年5月在对全球100个国家及地区从事30个行业的3000名高管进行的调查中,有60%的受访者表示无法有效利用所有数据。而近期IBM对64个国家及地区从事19个行业的1700名首席营销官开展的最新调查更是进一步体现了出