大数据:技术与应用实践指南45

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

《大数据:技术与应用实践指南》读书会赵刚博士北京赛智时代信息技术咨询有限公司(CIOManage)总经理www.ciomanage.com作者简介赵刚,博士。北京赛智时代信息技术咨询有限公司创始人。历任国内著名信息化咨询公司赛迪顾问股份有限公司高级副总裁、首席信息化咨询顾问,国内计算机系统集成一级资质企业北京赛迪时代信息产业股份有限公司总经理、首席架构师,2012年获得中国电子信息产业发展研究院十大“赛迪学者”称号,兼任中国信息化推进联盟专家、中国电子学会高级会员。近2年,主持和参与过的信息化咨询和集成项目有:国家新一代信息技术应用战略研究、亚太地区智慧城市指标体系研究、中国-欧盟信息社会研究、天津市智慧城市规划、国土资源部分布式国土资源信息共享服务平台、国家图书馆文津馆智能搜索集群平台、公安部虚拟化数据平台、中海油企业级数据中心和灾备中心规划、国药集团私有云计算平台规划、北京市物联网应用示范项目初步设计、鄂尔多斯市人口基础数据库建设等。在信息化领域耕耘10余年,服务的政府、企业客户超过100家,发表文章若干篇,著有专著《IT管理体系-战略、管理和服务》,参与编写《智慧城市:规划、建设和评估》、《信息化基本知识》、《信息系统审计》等。www.ciomanage.com前言•这本书目标读者是大数据技术应用人员,希望让读者明白大数据是如何落地的,从数据分析的业务需求到大数据技术实现是如何完成的。•这本书是从系统架构的角度来阐述大数据,覆盖面广,但受篇幅所限,很像是一本大数据技术架构的综述和框架,更深入的技术细节就需要读者做延伸阅读。•这本书写作过程中参考了赛智时代公司的大数据研究和咨询成果,也参阅了大量网络和技术社区中的研究文章,是在边研究、边应用、边总结中写出的书。•这本书是大数据技术发展过程的阶段性总结,随着技术的发展,这本书也需要不断完善,读者可以关注我的博客。www.ciomanage.com书的目录结构•第1章大数据的概念和发展背景•第2章大数据应用的业务需求•第3章大数据应用的总体架构和关键技术•第4章大数据与企业级应用的整合策略•第5章大数据应用的实践方法与案例•第6章大数据应用的主流解决方案•第7章大数据应用的未来挑战和趋势www.ciomanage.com导读目录什么是大数据?从大数据的发展历程说起www.ciomanage.com互联网与电子商务大数据应用经济和社会各个领域大数据应用•气象地图分析•大物理分析•基因图谱分析科技技术大数据应用第一阶段(20世纪90年代后)第二阶段(2003-2010年)第三阶段(2010年以后)•Google、Yahoo、Facebook等互联网公司基于分布式计算解决海量数据处理问题•全球2010年进入ZB时代•美国政府、联合国、世界经济组织以及各个经济和社会领域的企业和组织机构关注数据开放与大数据应用当前,大数据已成为全球经济热门话题2011年,麦肯锡全球研究院(MGI)发布《大数据:创新、竞争和生产力的下一个新领域》报告,这份报告研究了数字数据和文档的状态,同时讲解了处理这些数据能够释放出的潜在价值,分析了大数据的活动和价值链。“BigDataisaBigDeal”为题发布新闻,宣布投资2亿美元启动“大数据研究和发展计划”涉及美国国家科学基金、卫生研究院、能源部、美国国防部等6个联邦政府部门,大力推动和改善与大数据相关的收集、组织和分析工具及技术,以推进从大量的、复杂的数据集合中获取知识和洞见的能力。美国政府认为大数据技术事关美国国家安全、科学和研究的步伐。大数据已提升为发达国家的政府发展战略,联合国发布了一份非常重要的大数据白皮书,总结了各国政府如何利用大数据更好地服务和保护人民,列举了大数据在交通、经济、疫情预测、社交网络等多方面应用。指出大数据对于联合国和各国政府来说是一个历史性的机遇,联合国还探讨了如何利用包括社交网络在内大数据资源造福人类。国际社会敦促各国政府重视大数据带来发展机会“世界经济论坛”发布“BigData,BigImpact”报告阐述大数据为国际经济社会发展带来的新机会,建议各国工业界、学术界、非营利性机构与管理者一起利用大数据所创造的机会。“大”1Byte(字节)相当于于一个英文字母。1Kilobyte(KB)=1024B相当于一则短篇故事的内容。1Megabyte(MB)=l024KB相当于一则短篇小说的文字内容。1Gigabyte(GB)=1024MB相当于贝多芬第五乐章交响曲的乐谱内容。1Terabyte(TB)=1024GB相当于一家大型医院中所有的X光图片资讯量。1Petabyte(PB)=l024TB相当于50%的全美学术研究图书馆藏书资讯内容。1Exabyte(EB)=1024PB5EB相当于至今全世界人类所讲过的话语。1Zettabyte(ZB)=1024EB如同全世界海滩上的沙子数量总和,目前进入。1Yottabyte(YB)=1024ZB人类尚未进入的数字时代,但已经并不遥远……www.ciomanage.com一个事实:2010年全球进入ZB级的大数据时代•随着互联网等信息技术的广泛应用,数据量正在呈指数级增长,大约每两年翻一番,这意味着人类在近两年产生的数据量相当于之前产生的全部数据量。•全球在2010年正式进入ZB时代,预计到2020年,全球将总共拥有35ZB的数据量。www.ciomanage.com。大数据:新的自然资源!•亚马逊每秒将产生72.9笔商品订单•全球每秒钟发送出290万封电子邮件•新浪微博每秒要接受100万以上的响应请求•每分钟会有20个小时的视频上传到Youtube…•每天被每个家庭消费的平均数据有375M•淘宝每天交易超过数千万笔,其单日数据产生量超过20T•Google每天需要处理24PB的数据•百度每天大约要处理60亿次搜索请求,几十PB数据。•Twitter上每天发布5千万条消息•新浪微博每天有数十亿外部网页和API接口访问需求用数据来说“大数据”1sec1min1daywww.ciomanage.comwww.ciomanage.com从哪来这么多数据?互联网移动互联网社交网物联网+++大数据从企业内部向企业外部扩展从WEB1.0向WEB2.0扩展从互联网向移动互联网扩展从互联网向物联网扩展www.ciomanage.com人与人互动产生的数据微信、微博、博客、视频、日志、音频;机器与机器/人互动产生的数据RFID、视频监控、M2M日志、传感器数据哪些主体怎样产生这些数据?交易系统产生的数据OLTP/关系型数据库•从计算机系统-社交人-物联,数据量越来越大,价值密度越来越低,潜在价值越来越大•从交易数据到交互数据都是什么类型的数据?Web网页WEB点击流文档物联网社交网络电话呼叫各种日志移动设备数据多媒体www.ciomanage.com关系型数据库80%复杂的非结构化数据20%结构化数据vs.大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合(维基百科)。它有四个主要特征:1.Volume2.Variety3.Value4.Velocity结构化、半结构化和非结构化数据如今的数据类型早已不是单一的数据表,日志、BLOG、微博、音频、视频等多种数据类型,对数据的处理能力提出了更高的要求。沙里淘金,潜在价值大大量数据的价值尚未完全被挖掘利用,因此,如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。快速获取需要的信息在如此海量的数据面前,处理数据的效率是组织的生命。数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量。什么是大数据?——著名的4Vwww.ciomanage.comwww.ciomanage.com导读目录大数据有什么用?产生数据聚集数据分析数据利用数据•内部业务系统数据库中结构化数据•内部交易中同时生成的其他非结构化化数据•企业外部电子采购、电子商务、客户服务系统等生成的外部结构化数据•企业外部网站、移动应用、社交网络、传感器、视频监控设备等产生的非结构化数据•集聚企业应用的数据•建立企业级主数据模型•实现企业级数据仓库•集聚和处理非结构化的文档和知识•集聚和处理外部非结构化的社交网络、流媒体、传感器、物联网等数据•客户分析•产品分析•市场分析•工程分析•绩效分析•风险分析•形势预测分析•企业文化分析•公众行为模式分析•经济预测•公共安全分析•报表•报告•可视化图表•社交网络分享企业大数据应用的业务流程:know-how20大数据价值挖掘的三大方向1、发现大数据的潜在价值发现过去没有发现的数据潜在价值,例如对忽视了的客户评论文档的利用。2、实现大数据整合创新的价值通过不同数据集的整合,创造新的数据价值,例如对客户在不同渠道购买行为的整合分析。3、老数据集在新领域再利用的价值在一个领域已经发挥过价值的数据,再次应用在新的领域创造出新价值,例如一个业务客户分析数据重用到另一个业务。www.ciomanage.com21不同行业的大数据应用需求行业应用需求互联网用户数据分析、用户行为分析、推荐系统、数据管理平台(DMP)、广告跟踪和优化、内容针对性投放、产品分析、病毒式传播、社交图谱关系分析、位置和邻近跟踪…零售货架商品关联性分析、产品推荐、市场营销…金融基于客户行为分析的市场营销、产品创新、客户满意度分析、流失预测、金融欺诈行为监测和预防、金融风险分析与预测…政府政府信息开放、宏观经济形势分析和预测、民主选情分析、公共安全监测和分析、城市基础设施实时监测和分析…医疗基因组学测序分析、疫情和健康趋势分析、医疗电子健康档案分析…能源智能电网分析应用、石油企业大数据分析…制造产品需求分析、产品故障诊断与预测、供应链分析与优化、工业物联网分析…电信客户分析、话单分析、信令分析、网络分析与优化、安全智能…交通物流交通流量分析与预测、交通安全水平分析与预测、道路环境监测与分析电子商务:基于客户行为分析的产品推荐看过本商品的顾客还看了(相似选购行为分析-推荐相似产品)购买本商品的顾客还购买了(相似购买行为分析-推荐组合产品)根据客户的浏览历史为您推荐(预测客户喜好-推荐最适合的产品)www.ciomanage.com互联网:用户行为分析与热点发现社区:基于客户喜好分析的定向广告•根据我在新浪微博中的“男士休闲服”的话题,为我推荐淘宝店中出售的休闲套装。•根据我的身份信息,为我推荐的产品基本符合我的年龄、身份和喜好。•并根据我对套装的关注,为我推荐黄金绒的牛仔裤。•根据我的喜好和评价,将类似的产品推荐给我的好友。www.ciomanage.com沃尔玛通过对消费者购物行为等非结构化数据分析(一个庞大的客户交易数据库),了解顾客购物习惯:年轻爸爸一般买尿不湿的时候,通常要犒劳一下自己买一下啤酒,因此这两个商品放在一起卖效果很好。飓风季,手电筒和蛋挞的销量数据都很高。这个季节,把他们摆在一起可以增加销量。零售业:顾客交易数

1 / 45
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功