大数据与我们的生活

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

分布式处理DistributedComputing并行处理ParallelComputing网格计算GridComputing云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。•何为大?—数据度量1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes要全体不要抽样采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不大。搜集的数据越来越多,分析和预测结果就会越来越准确,并发现一些细节和微乎其微的重要问题。大数据是指不用随机分析法这样的捷径,而是通过采用所有数据的方法。数据量不一定很大,但需要全部,包含了所有的信息。要效率不要绝对精确只有5%的数据是结构化的,可以适用于传统数据库,如果不接受混乱,剩下95%的非结构化数据都无法被利用。少量数据下运行最佳的算法,可能在大数据下可能会表现差强人意,在少量数据下表现差的算法,可能在大数据下惊呆小伙伴们。大数据的简单算法比小数据的复杂算法更有效,混杂是关键。谷歌翻译之所以好,除了数据量庞大以外,还接受了有错误的数据,即来自互联网的废弃内容。要相关不要因果通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨吉拉德的书,但是他只要通过算法统计分析,得知这个结果就可以了。沃尔玛领导了零售链的革命,让供应商监控销售速率、数量、以及存货情况。这个数据库不仅包含了每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当天的天气。在大数据时代,通过建立在人的偏见上的关联物检测法已经不再可行,因为数据库太大而且需要考虑的领域太复杂。搜狗拼音输入法各类猜你喜欢Siri语音识别

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功