第1章 大数据综述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

<1>——做中国领先的科研资源提供商第一章大数据综述《大数据处理》配套课件总课时:1小时(实验:无)<2>提纲大数据的产生背景什么是大数据对大数据的进一步理解大数据为什么重要<3>麦肯锡全球研究院的海量数据报告2011年5月,麦肯锡全球研究院发布了一份关注当前社会数据洪流的报告“海量数据:创新、竞争和生产率的下一个前沿”<4>互联网上的60秒会发生什么2011年全球被创建和复制的数据总量为1.8ZB,预测到2020年,全球将拥有35ZB的数据(1ZB=1024EB=1024*1024*1024TB)<5>奥巴马的大数据战略2012年3月29日,白宫发布美国政府的大数据计划通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究<6>提纲雅虎提供静态的导航信息Google分析用户搜索信息,满足用户需求Facebook用户产生内容,创造需求。前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。互联网越来越智能Google精确掌握用户行为、获取需求微博为新浪带来巨大价值马云的判断来自于数据分析“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。Gartner2011年技术成熟度曲线,大数据处于高速发展期技术演进历史揭示未来是大数据驱动的智慧型经济模式提纲大数据的产生背景什么是大数据对大数据的进一步理解大数据为什么重要指数型增长的海量数据•海量数据就是大数据吗?•大数据就是云计算吗?大数据的4V特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效Value价值挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息。价值密度低,是大数据的一个典型特征。Variety多样性企业内部的经营交易信息;物联网世界中商品、物流信息;互联网世界中人与人交互信息、位置信息等是大数据的主要来源.能够在不同的数据类型中进行交叉分析的技术,是大数据的核心技术之一。语义分析技术、图文转换技术、模式识别技术、地理信息技术等都会在大数据分析时获得应用。Velocity速度1s是临界点。对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的。实时处理的要求,是区别大数据引用和传统数据仓库技术、BI技术的关键差别之一。Volume数据量PB是大数据层次的临界点。KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB提纲大数据的产生背景什么是大数据对大数据的进一步理解大数据为什么重要大数据比云计算更为落地商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式大数据不仅仅是“大”多大?PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值软件是大数据的引擎和数据中心(DataCenter)一样,软件是大数据的驱动力.软件改变世界!大数据生态:软件是引擎大数据的应用不仅仅是精准营销通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象管理大数据“易”,理解大数据“难”目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心。非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等。提纲大数据的产生背景什么是大数据对大数据的进一步理解大数据为什么重要更高数据层面整合云计算、物联网从政绩工程变成实用工程国内各地制定云计算“十二五”规划云计算、物联网园区中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术发展,我们即将步入基于大数据的智能化时代。国外的大数据应用美国国务院采用大数据技术开发新的美国护照系统。IBM宣布投资1亿美元用于大数据研究;美国IT公司开始意识到大数据技术能够为公司创造价值;大数据公司引入汽车行业高管人员扩展营销业务;习题1.为什么说现在是大数据的时代?2.简述大数据的4V特征。3.思考大数据和云计算的关系。4.思考大数据还可能用于哪些应用场合?

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功