3大数据时代-思维变革---2更杂

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1.大数据时代的思维变革1.大数据时代的思维变革——更杂“更杂”——不是精确性,而是混杂性执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生允许不精确•对“小数据”而言,最基本、最重要的要求是减少错误,保证质量。•允许不精确–容错标准的放松能获取更多数据–大量数据创造更好的结果•混乱–错误的数据–格式的不一致“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。计算机的速度•摩尔定律–每块芯片上晶体管的数量每两年就会翻一番。•驱动各类系统的算法–在很多领域算法带来的进步胜于芯片进步•大数据–2000年,微软研究者,改进word语法检查的方法,数据的增多提高了算法的表现。–发展算法还是丰富语料库?大数据的简单算法小数据的复杂算法•无所不包的google翻译系统–2006年Google上万亿的语料库翻译–2012涵盖了60多种语言14种语音输入数据量500万10亿简单算法7595较优算法8694纷繁的数据越多越好•大数据时代要求我们重新审视精确性的优劣。–英国石油公司(BP)切里波因特(CherryPoint)炼油厂里,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。–酷热的恶劣环境和电气设备的存在有时会对感应器读数有所影响,形成错误的数据。–数据生成的数量之多可以弥补这些小错误。–随时监测管道的承压使得BP能够了解到,有些种类的原油比其他种类更具有腐蚀性。以前,这都是无法发现也无法防止的。纷繁的数据越多越好•错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。•实例:麻省理工与通货紧缩预测软件–美国劳工统计局:•90个城市80000价格信息两亿五千万美金–MIT•每天50万种商品的价格信息收集混杂性,不是竭力避免,而是标准途径•在许多技术和社会领域,我们更倾向于纷繁杂乱。–分类法和索引法–标签•“欣赏不精确而不会假装精确”•据估计,只有5%的数字数据是结构化的妾适用于传统数据。•数据库设计–传统数据库引擎要求数据高度精确和准确排列。–新的数据库设计的诞生大数据与传统数据库的区别•传统数据库的设计要求在不同的时间提供一致的结果。•大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:1.结构化程度•传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;•大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。实例:Hadoop与VISA的13分钟•Hadoop?–是与谷歌的Mapreduce系统相对应的开源式分布系统的基础架构。–把大数据分成小模块然后分配给其他机器进行分析。–假定数据无法移动,本地处理–结果不精确•VISA使用Hadoop,能够将处理两年内730亿单交易所需的时间,从一个月缩短为13分钟。大数据与传统数据库的区别–异常数据的处理•传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;•大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。•实例–ZestFinance,一个由谷歌前任首席信息官道格拉斯·梅里尔创立的公司,用自己的经验再次验证了“宽容错误会给我们带来更多价值”。•这家公司帮助决策者判断是否应该向某些拥有不良信用记录的人提供小额短期贷款。•2012年,让ZestFinance引以为豪的就是,它的贷款拖欠率比行业平均水平要低三分之一左右。唯一的得胜之道还是拥抱混杂。•据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用。–第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。–第二个折中出现在数据的质量上。在小数据时代,追求精确度是合理的。因为当时我们收集的数据很少,所以需要越精确越好。如今这依然适用于一些事情。但是对于其他事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功