大数据时代大数据概述大数据4V特性相关领域应用相关技术架构目录大数据概述数据量级变化大数据产生背景数据量级不断增加|根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。数据结构日趋复杂|大量新数据源的出现则导致非结构化、半结构化数据爆发式的增长TBPBZBEB地球上至今的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)说明互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。1GB(Gigabyte)=1024MB1TB(Terabyte)=1024GB1PB(Petabyte)=1024TB1EB(Exabyte)=1024PB1ZB(Zettabyte)=1024EB大数据时代变化数据在web2.0的时代,人们从信息的被动接受者变成了主动创造者全球每秒钟发送2.9百万封电子邮件,每天会有2.88万个小时的视频上传到Youtube,推特上每天发布5千万条消息量级每月网民在Facebook上要花费7千亿分钟,发送和接收的数据高达1.3EBGoogle上每天需要处理24PB的数据…多样性大数据的定义大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。想驾驭这庞大的数据,我们必须了解大数据的特征。facebook社交网络…淘宝、ebuy电子商务…微博、Apps移动互联…大数据的4V特性数据结构海量存储能力读写速度实时大数据分析hadoophbasesparkstrom大数据典型特性——存储能力变化▲数据量不断增加,存储能力也随之不断增强存储能力大数据典型特性——读写速度提升▲与云计算相结合的大数据存储速度显著提升数据体量读写速度读写速度大数据典型特性——多样性发展▲数据结构更加复杂,呈多样性发展多样性1234体量Volume多样性Variety价值密度Value速度Velocity4V特性从非结构化数据的超大规模和增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍,总数据量的80~90%大数据的异构和多样性,多种形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析,深度复杂分析,机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效相关领域应用军事①建设公共基础设施应该如何选址?②怎样有效提高公众生活安全水平?③人口土地、资源利用如何优化?④自然灾害、雾霾情况怎样最大化去改善?⑤城市交通拥堵情况怎么去解决?合理规划很重要食品安全消费行业金融服务电子商务气象交通环保医疗卫生军事食品安全消费行业金融服务电子商务气象交通环保医疗卫生VS优化城市实时交通信息:利用社交网络和天气数据来优化最新的交通情况智能城市系统:自动通知消防、公安、医院等,迅速到达现场处理自然灾害预测:实时监测、对潜在危机做出快速响应,通过卫星和遥感技术,远程获取灾区情况,制定合理救援计划智慧城市建设:宏观调控人口、环境、土地资源利用等,做高效的城市规划建设正确方式VS改善生活穿戴的装备:根据睡眠模式、热量消耗、心率等时刻监控健康状况提高医疗和研发:迅速解码DNA,结合海量病例迅速制定最优治疗方案改善安全和执法:国家实时监控恐怖主义,企业防御网络攻击,警察利用社交、公共资源数据来匹配犯罪人员信息,捕捉罪犯正确方式用户行为数据用户消费数据用户社交等UGC数据培亚马逊、SMG、淘宝信用卡中心、蚂蚁金服谷歌地图、大众点评、美团等APP的自动定位系统互联网金融数据支付宝、陆金所用户地理位置数据互联网大数据简单罗列几个行业fackbook、新浪合理使用大数据大数据之提高经济策略金融服务电子商务消费行业根据用户的喜好、交易记录并制定权重匹配商品,提供准确的推送根据不同地域、不同年龄段的人群的消费情况及生活习惯,制定提供最优服务的计划结合热点、题材、政策和历史数据及趋势分析,制定良好的方向相关技术数据库数据灵活低价格高性能数据灵活非关系型(列)性能对比优点缺点优点缺点易理解使用方便支持sql易于维护价格昂贵不能自动切片固定表结构读写性能差高并发读写需求读写性能高基于键值对无耦合数据存储格式丰富价格低大多免费不提供sql支持学习成本高BI支持弱关系型数据库非关系型数据库NoSql场景不同效果也不同,目前NoSql是最为合适大数据发展的关系型数据库:Mysql、Oracle、SQserver等非关系型数据库:Hbase、MongoDB、Redis等云计算移动电话PCsTVsPDAsGPS导航汽车电子设备智能家电iPhoneDCs传感器。。。我们已经进入一个无处不网、无时不网的时代!云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法,用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。大数据与云计算云计算与大数据的关系是静与动的关系,前者强调的是计算、存储能力;大数据需要处理大数据的能力(数据获取、清洗、转换、存储、分析、统计等能力),其实就是强大的计算能力和数据存储能力。大数据必须采用云端分布式架构对海量数据进行分布式存储、分布式处理。云计算为大数据资源、大数据挖掘提供技术设施大数据挖掘为云计算建设和运作提供决策相互关联性大数据之实时分析是指对规模巨大的数据进行分析,利用大数据技术高效的快速完成分析,达到近似实时的效果,更及时的反映数据的价值和意义。近实时的数据分析,是传统架构的50-1000倍高效的响应速度在当今互联网显得极为重要实时大数据分析spark实时分析框架共性:开源的分布式系统,具有低延迟、可扩展和容错性诸多优点流式实时分析框架stormHadoop集群是编程语言吗?跟大数据有什么关系?Hadoop是开源平台,本身不是数据库,但可处理非结构化数据这点关系数据库很难做到java、android等程序是用来做交互的,而hadoop是用来做计算的哪些公司在使用Hadoop为什么使用Hadoop小型机小型机VPSVPSVPSVPS存储阵列数据移动EMC存储OracleIBM磁盘IO瓶颈带宽瓶颈计算瓶颈cpucpu基于共享存储和高性能计算的架构。大型机和小型机的差别存储阵列和普通硬盘的差别IO,稳定性。IO能力和机器数量成非正比计算能力和机器数量成正比scale-up(纵向扩展)集群思路引入一户人家,家里有很多的田,他需要牛来耕地,他要怎么来决策耕田的问题呢?一只普通的牛体力有限,很快就不行了换一只昂贵的身材健硕的牛呢?还是体力有限,很快就又不行了最后他想到一个办法:如果找一群普通的牛,事实不会又便宜又高效呢?集群的概念就是这么得来的特性HDFS:HadoopDistributedFileSystem分布式文件系统MapReduce:分布式运算框架YARN:YetAnotherResourceNegotiator资源管理调度系统生态圈问题:怎样存储海量数据?HDFS分布式文件系统两个思想十分重要1.切分2.分装MapReduce介绍MapReduce=Map(拆分)+Reduce(合并、排序)大数据时代来临一切真相将会展现在我们面前THANKS