大数据介绍1目录大数据的概念大数据与传统数据的区别?大数据的典型特征(3V)广义的大数据大数据应用案例2大数据的概念大数据(BigData)是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合简单一点的说,就是用现有一般技术难以管理的数据。3大数据与传统数据的区别?小明去了一百次书店传统数据:要回答的问题是他第一百零一次买不买书,即业绩和经营指标的问题;大数据:要回答的是他第一百零一次买什么书,需要将什么样的内容推荐给他。群体和个体的区别传统定义上,更多关注的是一类人群,用同一类规则制订套餐给他们;互联网时代,要把每个人都精准刻画出来,进行精准匹配。4大数据的典型特征(3V)Volume(容量)现在基本上是指从几十TB到几PB这样的数量级,未来,可能只有几EB数量级的数据量才能称得上是大数据了。(1T=1024G,1P=1024T)Variety(多样性)结构化和非结构化数据Velocity(速度)数据产生和更新的频率5广义的大数据所谓大数据,是一个综合性概念,它包括:(1)因具备3V特征而难以进行管理的数据(2)对这些数据进行存储、处理、分析的技术(3)以及能够通过分析这些数据获得实用意义和观点的人才和组织6麻省理工与通货紧缩预测软件美国劳工统计局的人员每个月都要公布消费物价指数(CPI),这是用来测试通货膨胀率的。政府通过人工采集价格信息数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,但是数据往往会有几周的滞后。麻省理工学院(MIT)的两位经济学家,通过一个软件在互联网上每天可以收集到50万种商品的价格,他们能比官方数据提前发现通货紧缩趋势。9沃尔玛,请把蛋挞与飓风用品摆在一起通过对历史交易记录这个庞大数据库进行观察,沃尔玛注意到,每当季节性飓风来临之前,不仅手电筒销量增加,而且美式早餐含糖零食蛋挞销量也增加了。因此每当季节性飓风来临时,沃尔玛就会把蛋挞与飓风用品摆放在一起,从而增加销量。10沃尔玛:东海岸——中海岸——西海岸在美国,东海岸、中海岸、西海岸之间有两小时时差。东海岸的沃尔玛营业两小时后之后,中海岸才开始营业,沃尔玛就会把东海岸当天这两小时的营业情况、相关数据传给中海岸。中海岸就会根据这个数据知道了这天人们的购物喜好,决定货品怎么摆放,哪些货物摆放在一起会比较好。这种方式给沃尔玛带来了很大的利润。11美国折扣零售商塔吉特与怀孕预测塔吉特公司能在不被清楚告知的情况下预测出一个女性的怀孕情况该公司找出了大概20多种与怀孕的关联物,给顾客进行“怀孕趋势”评分这些数据甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券12Hitwise,通过流量判断消费者喜好数据创新再利用的一个典型例子是搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。这些信息除了实现基本用途之外,它还可以变得非常有价值。如数据代理益百利旗下的网页流量测量公司Hitwise,让客户采集搜索流量来揭示消费者的喜好。13物联网物联网(InternetofThings,缩写IOT)是一个基于互联网、传统电信网等信息承载体,让所有能够被独立寻址的普通物理对象实现互联互通的网络。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查找出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜寻位置、防止物品被盗等各种应用。14RFID技术RFID是RadioFrequencyIdentification的缩写,即射频识别,俗称电子标签。RFID是一种简单的无线系统,由一个询问器(或阅读器)和很多应答器(或标签)组成。该系统用于控制、检测和跟踪物体。RFID技术在超市和图书馆中的应用15车联网未来车联网技术将重新定义汽车DNA。借助无线通讯,城市内车与车之间,车与建筑之间,车与人之间都将建立更加智能紧密的互联。通过装载在车辆上的电子标签利用无线射频等识别技术,实现在信息网络平台上对所有车辆的属性信息和静、动态信息进行提取和有效利用,并根据不同的功能需求对所有车辆的运行状态进行有效的监管和提供综合服务。16无人驾驶无人驾驶被人认为是车联网的终极目标无人驾驶车依赖的技术很多,比如导航、雷达、庞大数据计算等,要实现这些技术需要和物联网紧密结合起来。无人驾驶是通过车载传感系统感知道路环境,自动规划行车路线并控制车辆到达预定目标的智能汽车。17自动泊车系统自动泊车系统,顾名思义驾驶者双手可以离开方向盘,在车辆停好之前要做的只是等待。自动泊车系统主要由两部分组成:控制单元和位于前后保险杠以及两侧的超声波雷达探头。按动自动泊车辅助系统激活按钮之后,雷达探头可在车辆行驶时对车辆两侧进行扫描。控制单元对雷达反馈的信息进行分析,从而估算出车位是否足以容纳车辆停放。自动泊车系统随后将通过助力转向系统对车辆行驶方向进行干预,并以控制单元规划好的路径将车辆停入车位。18日本先进工业技术研究院的坐姿研究与汽车防盗系统该研究所教授把每个驾车者的坐姿量化为精确的数据,使其对司机识别的正确率高达98%。这项技术作为汽车防盗系统,一旦识别驾车者不是车主,就会自动熄火。这一技术还可汇集事故发生前驾车者的姿势变化数据,分析坐姿与行驶安全的关系,在司机疲劳驾驶时发出警示或自动刹车。19UPS快递——大数据技术下的最佳行车路径UPS快递多效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。同时,这些设备也方便了公司监督管理员工并优化行车线路。UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。2011年,UPS的驾驶员少跑了近4828万公里的路程,节省了300万加仑的燃料并且减少了3万公吨的二氧化碳排放量。20UPS与汽车修理预测UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能及时地进行防御性的修理。通过监测车辆的各个部位,UPS只需要更换需要更换的零件,从而节省了好几百万美元。21谷歌与甲型H1N1流感2009年出现的甲型H1N1流感,当时还没有研发出对抗这种新型流感病毒的疫苗,公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道这种流感出现在哪里。疾控中心得到流感方面的信息往往会有一两周的滞后,这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。谷歌通过观察人们在网上的搜索记录来预测流感的传播,得到的信息是非常准确和及时的。22“量化自我”通过一种非干预的手段,把一些所谓的医疗传感器放到我们的身边,比如我们戴一个腕表、一枚戒指、一个耳塞、一副眼镜等,通过这些设备我们可以了解自己的心跳、血压情况,甚至包括我们体表的健康状况,从而对一些大病(如癫痫等)进行早期预测。美国Fitbit公司近期就推出了一款免费的苹果手机应用,用户可用于记录食物和液体摄入量,从而跟踪其活动水平和营养摄入情况,通过分析这些数据可以很好的控制体重。23小儿床垫通过床垫上的压力与湿度传感器分析,来判断小孩子有没有比较严重的打鼾或者睡姿不正确等问题。24在线教育如著名的在线教育公司Coursera,已经和普林斯顿、伯克利、宾夕法尼亚大学等30多所大学合作,在互联网上免费开放大学课程分布在世界各地的学习者不仅可以在同一时间实时听取同一位老师的授课,还和在校生一样,做同样的作业、接受同样的评分和考试。在线教育是一个“行为评价和诱导”的智能平台25在线教育服务Knewton在线教育服务Knewton是大数据应用于教育行业的典型,通过数据分析区分出每个学生的优缺点,从而给学生有效的指导。美国最大的公立大学亚利桑那州公立大学曾运用这一系统来提高学生的数学水平,全校2000名学生使用该系统两学期之后,该大学的辍学率下降了56%,毕业率从64%升高到75%。26购买飞机票同一架飞机上的座位,票价却千差万别,个中原因,只有航空公司知道。奥伦-埃齐奥尼开发了一个系统,用来推测当前网页上的机票价格是否合理,预测当前的机票价格在未来一段时间内会上涨还是下降,从而帮助乘客明智购票。这个预测系统建立在41天内价格波动产生的12000个价格样本基础之上。27航班延误之候机经济学美国建立了一个统一的数据开放门户网站——Data.Gov。Data.Gov上线以后,美国交通部开放了全美航班起飞、到达、延误的数据。航班延误时间的分析系统(Flyontime.us):帮助消费者找到表现最佳,最符合自己需要的航班。该系统向全社会免费开放,任何人都可以通过它查询分析全国各次航班的延误率及机场等候时间。28The-Numbers.com与电影票房预测The-Numbers.com在好莱坞电影上映之前,就能利用海量数据和特定算法预测出一部电影的票房。该公司拥有一个包括了过去几十年美国所有商业电影大约3000万条记录的数据库;数据库里有所有关于预算、电影流派、拍摄、阵容、获得奖项和收入等数据。29VISA&MasterCard与商户推荐像VISA和MasterCard这样的信用卡发行商,它们能够从自己的服务网获取更多的交易信息和顾客的消费信息它们的商业模式从单纯的处理支付行为转变成了收集数据一个称为MasterCardAdvisors的部门收集和分析了来自210个国家的15亿信用卡用户的650亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分析结果卖给其他公司30FICO,“我们知道你明天会做什么”2011年,FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点怪异的变量。比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。31中英人寿保险有限公司(Aviva)中英人寿保险有限公司(Aviva)是一家大型保险公司,他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物。这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用来分析的数据包括好几百种生活方式的数据,比如爱好、常浏览的网站、常看的节目、收入估计等。通过利用相关关系,保险公司可以在每人身上节省125美元,然而这个纯数据分析法只需要花费5美元。32Xoom与跨境汇款异常交易报警Xoom是一个专门从事跨境汇款业务的公司,它会分析一笔交易的所有相关数据,一旦发现用“发现卡”从新泽西州汇款的交易比平常多的话,系统就会报警。33无所不包的谷歌翻译系统2006年,谷歌公司开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译利用一个更大更繁杂的数据库,也就是全球的互联网。谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它增加了很多各种各样的数据,还接受了有错误的数据。谷歌语料库的内容来自于未经过滤的网页内容,所以会包含各种错误。但谷歌语料库是其他语料库的好几百万倍大,这样的优势完全压倒了缺点34谷歌,从大的“噪音”数据中受益谷歌知道人们在搜索时点击的是第1页的第8个链接还是第8页的第1个链接,或者是干脆放弃了所有搜索点击。谷歌就是依据用户的点击情况通过排名算法自动地在随后的搜索中将信息排位。“数据废气”:看似“没用”的,“错误”的数据。35IBM,电动汽车动力与电力供应系统优化预测基于大量的信息输入,如汽车的电池电量、汽车的位置、一天中的时间以及附近充电站的可用插槽等,IBM开发了一套复杂的预测模型。它将这些数据与电网的电流消耗以及历史功率使用模式相结合。通