青岛瑞高青岛瑞高咨询管理有限公司大数据应用案例分析青岛瑞高PAGEDIRECTORY目录认识大数据时代01大数据的应用领域02大数据学习基础03案例分享04讲述内容青岛瑞高3大数据时代到来随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、位置、甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;据IDC研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB=2^50字节1EB=2^60字节1ZB=2^70字节GB在2011年,这个数字达到了1.8ZB。TBPBEBZB青岛瑞高4大数据时代到来何为大?—数据度量1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes青岛瑞高5大数据的构成5大数据=海量数据(交易数据、交互数据)+针对海量数据处理的解决方案海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、微博、及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。注:大数据不仅仅指的是数据量庞大,更为重要的是数据类型复杂想驾驭这庞大的数据,我们必须了解大数据的特征。青岛瑞高6大数据的产生各行各业大数据每天都在产生…我国网民数量(6.88亿)居世界之首,每天产生的数据量位居世界前列某宝网站-单日数据产生量超5万GB-存储量4000万GB-目前数据总量10亿GB-存储网页1万亿页-每天约60亿次搜索请求百度公司城市监控医院-每小时能产生3.6GB的数据-每月产生数据上千万GB-每个病人的CT影像达几十GB-全国每年保存的数据达上百亿GB新的数据来源/新的数据采集方法-互联网(社交网络、电子商务等)-物联网(传感器、二维码、RFID、无线射频识别、位置信息等)全时空数据的可采集性智能算法的使能非结构的数据形态-图片、视频、音乐-商务智能(BI)-人工智能(AI)而数据获取成本、存储成本和处理成本的下降,也推动了数据量的膨胀。青岛瑞高7大数据4V特征结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等,对数据的处理能力提出了更高要求实时获取需要的信息比如:在客户每次浏览页面,每次下订单过程中都会对用户进行实时的推荐,决策已经变得实时数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量沙里淘金,价值密度低虽然数据量很大,但是价值密度较低,如何通过强大的机器算法更迅速地完成数据价值“提纯”,是目前大数据亟待解决的难题大数据产品市场价值解决方案转化1.海量(Volume)3.速度(Velocity)4.价值(value)2.多样(Variety)青岛瑞高PAGEDIRECTORY目录认识大数据时代01大数据的应用领域02大数据学习基础03案例分享04讲述内容青岛瑞高9大数据的应用领域天文学生物医学电子政务气候学企业管理教育学金融学市场营销公共服务商业智能传媒业生活娱乐天文学生物医学电子政务气候学企业管理教育学金融学市场营销公共服务商业智能传媒业生活娱乐总统选举总统选举情报学情报学图书馆学图书馆学青岛瑞高10大数据的应用领域—医疗领域数据落地,数据分析工作与行业和业务的深度融合为管理者提供报表并提出决策依据,帮助企业做出明智的业务决策支持综合数据实时挂号门诊情况住院统计临床统计今日检查青岛瑞高11大数据的应用领域——政治领域大数据的发展,将极大地改变政府的管理模式,有利于节约政府投资、加强市场监管能力、提高政府决策能力、提升公共服务能力,实现区域化管理。重“一站式”服务轻“激励型”服务我国电子政务的发展现状:重性质性政务信息轻量化性政务数据政府门户网站信息以文本、图片、视频等非结构化信息为主,但没有关于财政税收、医疗保险等可量化分析的结构化数据。“一站式”服务包括申请、办证、审批等,忽略了开放原生态数据激发社会主体的创造性、主动性。大数据在我国电子政务领域的应用青岛瑞高12大数据的应用领域——城建领域目前,我国有60多个城市,将构建“智慧城市”的目标列入“十二五规划”中。智慧城市即利用大数据的整合和分析来治理社会。2013年两会期间,有代表提议将发展大数据上升为国家战略。大数据背景下,我国电子政务创新模式的转变:关注焦点——从信息向数据转变1增值基础——从公开向发布、开放转变2行为方式——从独立向协同转变3青岛瑞高13大数据的应用领域——金融领域大数据助力推进高频金融交易和小额信贷高频交易:实时性要求高、数据规模大。目前沪深两市每天4个小时交易时间会产生3亿条以上逐笔成交数据,通过对历史和实时数据的挖掘创新,以创造和改进数量化交易模型,并将之应用于基于计算机模型的实时证券交易过程中。小额信贷:阿里巴巴和建行在2007年推出一个专注于小企业的贷款计划——e贷通,阿里巴巴利用拥有的用户信息及交易数据,通过大数据技术自动判定是否给予企业贷款;而建行坐拥巨额资金,希望贷款给无信用记录但发展势头良好的小企业。到2012年底,阿里在累计服务小微企业超过20万家,放贷300多亿元,坏账率仅为0.3%左右,低于商业银行水平。青岛瑞高14大数据的应用领域——金融领域14大数据协助金融企业精准营销招商银行通过数据分析识别出招行信用卡高价值客户经常出现在星巴克、DQ、麦当劳等场所后,通过“多倍积分累计”“积分店面兑换”等活动吸引优质客户;通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15个和7个百分点;通过对客户交易记录进行分析,有效识别出潜在的小微企业客户,并利用远程银行和云转介平台实施交叉销售,取得了良好成效。青岛瑞高15大数据的应用领域——教育领域5学习成绩1入学率2辍学率3识字的准确率5升学率4作业的正确率6考试时答题的顺序11师生互动的时长与频率回答问题的时长、正确率课堂举手次数回答问题的次数平均每道题花费的时间1278910学校教育中的“大数据”现在,大数据分析已经被应用到美国的公共教育中,成为教学改革的重要力量。青岛瑞高16大数据的应用领域——生活娱乐领域40天,40亿人次。这是春运的总时间和总出行人数。在这场堪称人类历史上最大规模的短期迁徙中,人群从哪儿去了哪儿?哪些线路最热门?在以往,这些问题可能难以精确回答。但随着技术进步,通过应用“大数据”这一技术利器,人们已经接近“在迷宫中感受全局”地看见春运的全景。大数据首次播报春运迁徙实况青岛瑞高17大数据的应用领域——生活娱乐领域国内有6亿手机用户使用百度地图,用户每次位置变化,百度都能得到数据。把手机网民的定位信息汇总成大数据进行分析,就能勾勒出人们的迁徙轨迹。此次百度图景化地展示春运情况,是基于LBS(基于地理位置的服务)技术的一次创新。它的数据每8小时更新一次,囊括了全国铁路、公路和航空在内的线路。青岛瑞高PAGEDIRECTORY目录认识大数据时代01大数据的应用领域02大数据学习基础03案例分享04讲述内容青岛瑞高19大数据学习基础•和数据中心(DataCenter)一样,软件是大数据的驱动力.•软件改变世界!•CJAVANETPHP•数据结构•数据库青岛瑞高20大数据学习基础需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术描述分布式文件系统流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索技术Hadoop,x86/MPPMapReduceStreamingDataInfiniBandEnterpriseSearch数据分析技术TextAnalyticsEngine自然语言处理、文本情感分析、VisualDataModeling机器学习、聚类关联、数据模型青岛瑞高21大数据学习内容Java基础教程1.Java简介,包括跨平台、虚拟机、JDK等2.Java编程基础,包括函数、循环语句、变量等3.Java高级特性,包括类、继承、多态等4.Java数据集合,包括List、Map、Set等介绍5.自动化项目管理工具Maven6.Java小测验Linux基础教程1.Linux的安装和使用2.Linux文件系统3.Linux用户和进程管理4.Shell和网络基础5.git工具介绍6.Linux小测验Hadoop环境搭建大数据概论、Hadoop发展历程、Linux常用指令Hadoop伪分布式安装、Hadoop集群环境搭建、Hadoop架构青岛瑞高22大数据学习内容青岛瑞高23大数据学习内容-echarts。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。支持的操作系统:Windows、Linux和OSX。相关链接:,这个Apache项目提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。有些开发人员想把Ambari的功能整合到自己的应用程序当中,Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。支持的操作系统:Windows、Linux和OSX。相关链接:,这是一种分布式计算框架,与Hadoop一样,它也基于MapReduce。它包括一种分布式文件系统以及支持数十亿个键和值的数据库。支持的操作系统:Linux和OSX。相关链接:,HPCC这种大数据平台承诺速度非常快,扩展性超强。除了免费社区版外,HPCCSystems还提供收费的企业版、收费模块、培训、咨询及其他服务。支持的操作系统:Linux。相关链接:“Bigdata”,这是一种高度扩展、高性能的数据库。它既有使用开源许可证的版本,也有使用商业许可证的版本。支持的操作系统:与操作系统无关。相关链接: