大数据技术及应用1123大数据应用目录大数据时代大数据技术2大数据时代大数据时代生活、工作与思维的大变革Living,workingandthinkingbigchanges一场生活、工作与思维的大变革大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……•大数据,变革生活•大数据,变革商业•大数据,变革思维•大数据,开启重大的时代转型•预测是大数据的核心3第一个故事,百货公司知道女孩怀孕第二个故事,搜索热词里的商机第三个故事,阿里知道谁需要贷款第四个故事,中移动挽留流失客户第五个故事:每天,我们借助大数据完成微信上的互动第六个故事:大数据解救每一位“路盲”第七个故事:大数据协助大闸蟹养殖大数据时代4大数据时代国家电网大数据案例,基于PMS(电力生产系统)系统数据,构建基于词云图分析的文本信息挖掘及可视化实现对电网设备的家族缺陷信息的快速分析。56设备类型设备型号断路器查询LW25-126信息查询:高压开关设备缺陷统计分析结果一次系统-其他二次系统-其他数据挖掘分析流程应用大修技改流程厂家设计改进流程物资采购流程供应商评估流程检修计划流程详细记录信息厂家西安西开高压电器股份有限公司河南平顶山高压电器股份有限公司设备类型断路器断路器设备型号LW25-126lw25-126投运日期2007-12-12008-3-1额定电压252KV252KV额定电流630A630A……………...西安西电高压开关有限责任公司断路器Lw25-1262008-3-20252KV630A......……………….…….…….…………大数据时代6大数据时代西安公交集团大数据案例公交司机驾驶行为直接影响到乘客的安全,如全国公交一样,西安公交集团在每辆公交车上安装了监控设备,每日审核监控视频,对开车过程中出现违章行为的司机进行罚款处理,但由于公交车多,视频数量极大,这给分析处理视频的工作人员带来了很大的工作压力,因此公交集团希望能够建立一种快速视频识别分析手段,以缓解当前这种情况。7大数据时代通过数据挖掘,使工作人员从每天长达数千小时视频违章信息筛选工作中脱离出来,将原来需要数十小时的视频审核工作,缩短为几个小时完成,大大提高了工作效率。且可以有效避免人为舞弊的情况。8大数据时代•数据:2014年10月纳税人A申报营业额为10万。•信息:2014年10月纳税人A申报营业额比去年同期减少了25%。•知识:原因是纳税人A在华东地区的渠道销售不利,或其产品B进入了衰退期,还是公司整体营销活动落后,竞争者强力促销导致?或是其它原因。针对这一问题公司应对的策略是什么?•智慧:应对的行动方案可能有多种,但(战略)选择哪个靠智慧。行动则又会产生新的交易数据。9大数据时代大数据时代的思维变革“更多”-不是随机样本,而是全体数据当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本=总体10大数据时代“更杂”-满足精确性,包容混杂性执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生大数据时代的思维变革11大数据时代“更好”-不是因果关系,而是相关关系知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法大数据时代的思维变革12大数据时代大数据时代的商业变革“数据化”-一切皆可“量化”大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。数据,从最不可能的地方提取出来数据化,不是数字化量化一切,数据化的核心当文字变成数据当方位变成数据当沟通成为数据一切事物的数据化13大数据时代大数据时代的商业变革“价值”-“取之不尽,用之不竭”的数据创新数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。数据创新1:数据的再利用数据创新2:重组数据数据创新3:可扩展数据数据创新4:数据的折旧值数据创新5:数据废气数据创新6:开放数据给数据估值14大数据时代大数据时代的商业变革“角色定位”-数据、技术与思维的三足鼎立微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITASoftware公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分价值还是必须从数据本身来挖掘。大数据价值的3大构成大数据掌控公司大数据技术公司大数据思维公司和个人全新的数据中间商专家的消亡与数据科学家的崛起大数据,决定企业的竞争力15大数据时代大数据时代的管理变革“风险”-让数据主宰一切的隐忧我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。无处不在的“第三只眼”我们的隐私被二次利用了预测与惩罚,不是因为“所做”,而是因为“将做”数据独裁挣脱大数据的困境16大数据时代“掌控”-责任与自由并举的信息管理当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则上重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。管理变革1:隐私保护,从个人许可到让数据使用者承担责任管理变革2:个人动因VS预测分析管理变革3:打破黑盒子,大数据程序员的崛起管理变革4:企业和行业应用突破大数据时代的管理变革17大数据时代正在发生的未来大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。18123大数据应用目录大数据技术大数据时代19大数据技术认知初识大数据算法与理论大数据系统与实践NoSQLHadoop大数据带来的思维变化大数据带来的价值链大数据发展现状与未来大数据vs人类什么是大数据大数据的特性大数据与传统技术的关系大数据与其他新兴技术的关系深入20大数据技术什么是大数据•百度百科:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。•维基百科:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。•学术观点:大数据是由大量异构的数据组成的数据集合,它是可以应用合理的数学算法或工具从中找出有价值的信息,为人们带来利益的一门新兴学科。21大数据技术•2009年,甲型H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周,而Google对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据相关性高达97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。•Google处理了5000万条历史记录、4.5亿个不同的数学模型。什么是大数据22大数据技术•Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。•最初预测系统建立在41天之内的12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。•系统只推测机票的价格何时最便宜,同时分析是什么原因导致的价格下降。Farecast→Bing什么是大数据23大数据技术大数据的特性更关注相关性主要用于预测数据量巨大实时性要求高大数据的特征24大数据技术•大数据是在传统数据库学科的分支-数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:–结构化程度•传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;•大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。–异常数据的处理•传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;•大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。大数据与传统数据库的区别25大数据技术•大数据、物联网、云计算、移动通信等都是近年涌现出来的新兴概念,彼此之间不是孤立的,而是存在着内部联系。大数据与其他新兴技术的关系26大数据技术•处理的对象往往是全部数据,而不是部分数据的采样–采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,应该去处理全部的数据。•不再执迷于精确性–精确的、规范化的、可以被传统数据库处理的数据只占全部数据的5%,必须接受不精确性才能处理另外95%的数据。–错误的数据是客观存在的,竭力避免它就失去了应有的客观性和公平性。–大数据的简单算法比小数据的复杂算法更有效。•更加关注相关性,而不是因果性–预测依靠的是相关性。–很多情况下知道“是什么”即可,不必知道“为什么”。大数据带来思维方式的变化27大数据技术数据数据的掌控者,拥有或者可以收集大量数据的公司。海量的数据就是财富,可以考虑自己分析或者卖数据给其他公司。技术技术供应商或者分析公司。掌握了从海量数据中分析出有用信息的技能或者工具,但本身不一定拥有数据。思维有创新思维的人或者公司。他们对大数据敏感,有怎样挖掘数据的新价值的独特想法。大数据的价值链28大数据技术大数据=海量数据+复杂类型的数据海量交易数据:企业/机构的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于互联网的社交媒体数据构成(日志和非结构化数据);源于物联网的设备和传感器采集数据(日志和非结构化数据);源于GPS和地理定位映射数据;医疗/监控产生的海量图像文件;科学计算/电子邮件等等。可以告诉我们未来可能会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如在商用硬件群中运行的各种数据挖掘和分析系统。大数据处理29大数据技术分析技术:•数据处理:自然语言、视频图像处理技术•抽样统计分析:A/Btest;topN排行榜;地域占比;文本情感分析•数据挖掘:关联规则分析;分类;聚类•模型预测:预测模型;机器学习;建模仿真大数据技术:•数据采集:ETL工具•数据存取:关系数据库;NoSQL;SQL等•基础架构支持:云存储;分布式文件系统等•计算结果展现:云计算;标签云;关系图等多元数据:•结构化数据:海量数据的查询、统计、更新